Details
Title | Оценка применимости гибридного подхода к анализу логов — сравнение supervised, semi-supervised и unsupervised методов: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта» |
---|---|
Creators | Сафронов Александр Анатольевич |
Scientific adviser | Сараджишвили Сергей Эрикович |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | гибридные модели ; методы обнаружения аномалий ; анализ логов ; ансамблирование моделей ; дрейф шаблонов ; hybrid models ; anomaly detection methods ; log analysis ; model ensembling ; template drift |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 09.03.04 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-1536 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Additionally | New arrival |
Record key | ru\spstu\vkr\35853 |
Record create date | 7/30/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Выпускная квалификационная работа посвящена анализу логов распределённых систем и разработке гибридной модели для обнаружения аномалий в логах HDFS. Цель исследования — создание устойчивой к дрейфу шаблонов системы, сочетающей преимущества supervised и последовательностных методов. Использованы сверточная нейросеть (CNN) и модель LogAnomaly на базе LSTM и Template2Vec. Агрегация предсказаний реализована через soft voting. Методология включает парсинг логов Drain, session-based группировку, векторизацию шаблонов с помощью TF-IDF и FastText, а также оценку по метрикам Precision, Recall, F1-score. Гибридная модель продемонстрировала прирост F1-score на 1.5 п.п. по сравнению с лучшей базовой моделью, четырёхкратное снижение дисперсии предсказаний и минимальное снижение точности при появлении новых шаблонов. Система обеспечивает инференс менее чем за 100 мс и не требует тонкой настройки параметров. Решение пригодно для интеграции в DevOps/AIOps пайплайны и автоматического мониторинга инцидентов в распределённых вычислительных кластерах. Полученные результаты подтверждают эффективность и промышленную применимость гибридного подхода.
The final qualification work is dedicated to the analysis of distributed system logs and the development of a hybrid model for anomaly detection in HDFS logs. The objective of the study is to create a template-drift-resistant system that combines the advantages of supervised and sequential methods. The approach employs a Convolutional Neural Network (CNN) and the LogAnomaly model based on LSTM and Template2Vec. Prediction aggregation is performed using soft voting. The methodology includes Drain log parsing, session-based grouping, template vectorization using TF-IDF and FastText, and evaluation via Precision, Recall, and F1-score metrics. The hybrid model achieved an F1-score improvement of approximately 1.5 percentage points over the best baseline model, a fourfold reduction in prediction variance, and minimal accuracy degradation with the introduction of new templates. The system provides inference in under 100 ms and requires no fine-tuning of parameters. The solution is suitable for integration into DevOps/AIOps pipelines and for automated incident monitoring in distributed computing clusters. The results confirm the effectiveness and industrial applicability of the hybrid approach.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- ОЦЕНКА ПРИМЕНИМОСТИ ГИБРИДНОГО ПОДХОДА К АНАЛИЗУ ЛОГОВ - СРАВНЕНИЕ SUPERVISED, SEMI-SUPERVISED И UNSUPERVISED МЕТОДОВ
- Список сокращений и условных обозначений
- Словарь терминов
- Введение
- 1. Обзор методов анализа логов распределённых систем
- 2. Методы и методики исследования гибридного подхода к анализу логов
- 3. Практическая реализация
- 4. Статистический анализ экспериментальных данных
- Заключение
- Список использованных источников
Access count: 1
Last 30 days: 1