Детальная информация
Название | Оценка применимости гибридного подхода к анализу логов — сравнение supervised, semi-supervised и unsupervised методов: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта» |
---|---|
Авторы | Сафронов Александр Анатольевич |
Научный руководитель | Сараджишвили Сергей Эрикович |
Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Выходные сведения | Санкт-Петербург, 2025 |
Коллекция | Выпускные квалификационные работы ; Общая коллекция |
Тематика | гибридные модели ; методы обнаружения аномалий ; анализ логов ; ансамблирование моделей ; дрейф шаблонов ; hybrid models ; anomaly detection methods ; log analysis ; model ensembling ; template drift |
Тип документа | Выпускная квалификационная работа бакалавра |
Тип файла | |
Язык | Русский |
Уровень высшего образования | Бакалавриат |
Код специальности ФГОС | 09.03.04 |
Группа специальностей ФГОС | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-1536 |
Права доступа | Доступ по паролю из сети Интернет (чтение) |
Дополнительно | Новинка |
Ключ записи | ru\spstu\vkr\35853 |
Дата создания записи | 30.07.2025 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа | Анонимные пользователи |
---|---|
Сеть | Интернет |
Выпускная квалификационная работа посвящена анализу логов распределённых систем и разработке гибридной модели для обнаружения аномалий в логах HDFS. Цель исследования — создание устойчивой к дрейфу шаблонов системы, сочетающей преимущества supervised и последовательностных методов. Использованы сверточная нейросеть (CNN) и модель LogAnomaly на базе LSTM и Template2Vec. Агрегация предсказаний реализована через soft voting. Методология включает парсинг логов Drain, session-based группировку, векторизацию шаблонов с помощью TF-IDF и FastText, а также оценку по метрикам Precision, Recall, F1-score. Гибридная модель продемонстрировала прирост F1-score на 1.5 п.п. по сравнению с лучшей базовой моделью, четырёхкратное снижение дисперсии предсказаний и минимальное снижение точности при появлении новых шаблонов. Система обеспечивает инференс менее чем за 100 мс и не требует тонкой настройки параметров. Решение пригодно для интеграции в DevOps/AIOps пайплайны и автоматического мониторинга инцидентов в распределённых вычислительных кластерах. Полученные результаты подтверждают эффективность и промышленную применимость гибридного подхода.
The final qualification work is dedicated to the analysis of distributed system logs and the development of a hybrid model for anomaly detection in HDFS logs. The objective of the study is to create a template-drift-resistant system that combines the advantages of supervised and sequential methods. The approach employs a Convolutional Neural Network (CNN) and the LogAnomaly model based on LSTM and Template2Vec. Prediction aggregation is performed using soft voting. The methodology includes Drain log parsing, session-based grouping, template vectorization using TF-IDF and FastText, and evaluation via Precision, Recall, and F1-score metrics. The hybrid model achieved an F1-score improvement of approximately 1.5 percentage points over the best baseline model, a fourfold reduction in prediction variance, and minimal accuracy degradation with the introduction of new templates. The system provides inference in under 100 ms and requires no fine-tuning of parameters. The solution is suitable for integration into DevOps/AIOps pipelines and for automated incident monitoring in distributed computing clusters. The results confirm the effectiveness and industrial applicability of the hybrid approach.
Место доступа | Группа пользователей | Действие |
---|---|---|
Локальная сеть ИБК СПбПУ | Все |
|
Интернет | Авторизованные пользователи СПбПУ |
|
Интернет | Анонимные пользователи |
|
- ОЦЕНКА ПРИМЕНИМОСТИ ГИБРИДНОГО ПОДХОДА К АНАЛИЗУ ЛОГОВ - СРАВНЕНИЕ SUPERVISED, SEMI-SUPERVISED И UNSUPERVISED МЕТОДОВ
- Список сокращений и условных обозначений
- Словарь терминов
- Введение
- 1. Обзор методов анализа логов распределённых систем
- 2. Методы и методики исследования гибридного подхода к анализу логов
- 3. Практическая реализация
- 4. Статистический анализ экспериментальных данных
- Заключение
- Список использованных источников
Количество обращений: 1
За последние 30 дней: 1