Применение кластерного анализа для выявления аномалий в сетевом трафике: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии»

Павлюченко, Филип

Детальная информация

Название	Применение кластерного анализа для выявления аномалий в сетевом трафике: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии»
Авторы	Павлюченко Филип
Научный руководитель	Сорокина Наталья Владимировна
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения	Санкт-Петербург, 2025
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	кластерный анализ ; K-Средних ; Дерево решений ; ID3 ; Обнаружение аномалий ; сетевой трафик ; ARP-трафик ; машинное обучение ; системы обнаружения вторжений ; cluster analysis ; K-Means ; Decision tree ; Anomaly detection ; network traffic ; ARP traffic ; machine learning ; intrusion detection systems
Тип документа	Выпускная квалификационная работа бакалавра
Тип файла	PDF
Язык	Русский
Уровень высшего образования	Бакалавриат
Код специальности ФГОС	09.03.02
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2025/vr/vr25-5159
Права доступа	Доступ по паролю из сети Интернет (чтение, печать)
Дополнительно	Новинка
Ключ записи	ru\spstu\vkr\37352
Дата создания записи	19.09.2025

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Тема выпускной квалификационной работы: «Применение кластерного анализа для выявления аномалий в сетевом трафике». Целью работы является оценка применимости кластеризации при выявлении сетевых аномалий (в частности, алгоритма K-средних и комбинированного подхода K-средних + ID3) в сравнении с эталонным методом контролируемого обучения (деревом решений ID3) на синтетических данных ARP-трафика с различным балансом классов. В ходе исследования решались следующие задачи: 1. Анализ предметной области. 2. Теоретическое описание алгоритмов K-средних, ID3 и комбинированного метода. 3. Разработка программной среды для генерации сетевого трафика с аномалиями, сбора и обработки данных. 4. Проведение экспериментов по обнаружению аномалий с использованием пяти моделей на данных с различной долей аномалий. 5. Сравнительный анализ эффективности моделей на основе метрик качества. Разработанная методика и проведенные эксперименты показали, что дерево решений ID3 обеспечивает наивысшую точность при наличии размеченных данных. Кластерный анализ (K-средних) продемонстрировал способность выявлять аномалии без разметки, однако его эффективность уступает ID3 и зависит от баланса классов. Комбинированный метод показал перспективные результаты, приближаясь к ID3. Полученные результаты могут быть использованы при проектировании систем обнаружения вторжений и для дальнейших исследований в области адаптивного анализа сетевого трафика. В процессе работы были использованы следующие информационные технологии и ресурсы: язык программирования Python с библиотеками Pandas, NumPy, Scikit-learn для анализа данных и реализации алгоритмов машинного обучения; библиотека Scapy для генерации и анализа сетевых пакетов; утилита командной строки TShark для захвата и предварительной обработки сетевого трафика. Данные экспериментов хранились и обрабатывались в формате CSV.

Topic of the final qualifying work: "Application of cluster analysis to detect anomalies in network traffic". The aim of the work is to assess the applicability of clustering in detecting network anomalies (in particular, the K-means algorithm and the combined K-means + ID3 approach) in comparison with the reference supervised learning method (ID3 decision tree) on synthetic ARP traffic data with different class balances. The following tasks were solved during the study: 1. Analysis of the subject area. 2. Theoretical description of the K-means, ID3 and combined method algorithms. 3. Development of a software environment for generating network traffic with anomalies, collecting and processing data. 4. Conducting experiments to detect anomalies using five models on data with different proportions of anomalies. 5. Comparative analysis of the effectiveness of models based on quality metrics. The developed methodology and conducted experiments showed that the ID3 decision tree provides the highest accuracy with labeled data. Cluster analysis (Kmeans) demonstrated the ability to detect anomalies without labeling, but its efficiency is inferior to ID3 and depends on the balance of classes. The combined method showed promising results, approaching ID3. The obtained results can be used in the design of intrusion detection systems and for further research in the field of adaptive analysis of network traffic. The following information technologies and resources were used in the work: the Python programming language with the Pandas, NumPy, Scikit-learn libraries for data analysis and implementation of machine learning algorithms; the Scapy library for generating and analyzing network packets; the TShark command line utility for capturing and pre-processing network traffic. The experimental data were stored and processed in CSV format.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Количество обращений: 0
За последние 30 дней: 0

Подробная статистика