Details

Title Оценка применимости гибридного подхода к анализу логов — сравнение supervised, semi-supervised и unsupervised методов: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators Сафронов Александр Анатольевич
Scientific adviser Сараджишвили Сергей Эрикович
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects гибридные модели ; методы обнаружения аномалий ; анализ логов ; ансамблирование моделей ; дрейф шаблонов ; hybrid models ; anomaly detection methods ; log analysis ; model ensembling ; template drift
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.04
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-1536
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\35853
Record create date 7/30/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Выпускная квалификационная работа посвящена анализу логов распределённых систем и разработке гибридной модели для обнаружения аномалий в логах HDFS. Цель исследования — создание устойчивой к дрейфу шаблонов системы, сочетающей преимущества supervised и последовательностных методов. Использованы сверточная нейросеть (CNN) и модель LogAnomaly на базе LSTM и Template2Vec. Агрегация предсказаний реализована через soft voting. Методология включает парсинг логов Drain, session-based группировку, векторизацию шаблонов с помощью TF-IDF и FastText, а также оценку по метрикам Precision, Recall, F1-score. Гибридная модель продемонстрировала прирост F1-score на 1.5 п.п. по сравнению с лучшей базовой моделью, четырёхкратное снижение дисперсии предсказаний и минимальное снижение точности при появлении новых шаблонов. Система обеспечивает инференс менее чем за 100 мс и не требует тонкой настройки параметров. Решение пригодно для интеграции в DevOps/AIOps пайплайны и автоматического мониторинга инцидентов в распределённых вычислительных кластерах. Полученные результаты подтверждают эффективность и промышленную применимость гибридного подхода.

The final qualification work is dedicated to the analysis of distributed system logs and the development of a hybrid model for anomaly detection in HDFS logs. The objective of the study is to create a template-drift-resistant system that combines the advantages of supervised and sequential methods. The approach employs a Convolutional Neural Network (CNN) and the LogAnomaly model based on LSTM and Template2Vec. Prediction aggregation is performed using soft voting. The methodology includes Drain log parsing, session-based grouping, template vectorization using TF-IDF and FastText, and evaluation via Precision, Recall, and F1-score metrics. The hybrid model achieved an F1-score improvement of approximately 1.5 percentage points over the best baseline model, a fourfold reduction in prediction variance, and minimal accuracy degradation with the introduction of new templates. The system provides inference in under 100 ms and requires no fine-tuning of parameters. The solution is suitable for integration into DevOps/AIOps pipelines and for automated incident monitoring in distributed computing clusters. The results confirm the effectiveness and industrial applicability of the hybrid approach.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous
  • ОЦЕНКА ПРИМЕНИМОСТИ ГИБРИДНОГО ПОДХОДА К АНАЛИЗУ ЛОГОВ - СРАВНЕНИЕ SUPERVISED, SEMI-SUPERVISED И UNSUPERVISED МЕТОДОВ
    • Список сокращений и условных обозначений
    • Словарь терминов
    • Введение
    • 1. Обзор методов анализа логов распределённых систем
    • 2. Методы и методики исследования гибридного подхода к анализу логов
    • 3. Практическая реализация
    • 4. Статистический анализ экспериментальных данных
    • Заключение
    • Список использованных источников

Access count: 1 
Last 30 days: 1

Detailed usage statistics