Details
Title | Применение кластерного анализа для выявления аномалий в сетевом трафике: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» |
---|---|
Creators | Павлюченко Филип |
Scientific adviser | Сорокина Наталья Владимировна |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | кластерный анализ ; K-Средних ; Дерево решений ; ID3 ; Обнаружение аномалий ; сетевой трафик ; ARP-трафик ; машинное обучение ; системы обнаружения вторжений ; cluster analysis ; K-Means ; Decision tree ; Anomaly detection ; network traffic ; ARP traffic ; machine learning ; intrusion detection systems |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 09.03.02 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-5159 |
Rights | Доступ по паролю из сети Интернет (чтение, печать) |
Additionally | New arrival |
Record key | ru\spstu\vkr\37352 |
Record create date | 9/19/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Тема выпускной квалификационной работы: «Применение кластерного анализа для выявления аномалий в сетевом трафике». Целью работы является оценка применимости кластеризации при выявлении сетевых аномалий (в частности, алгоритма K-средних и комбинированного подхода K-средних + ID3) в сравнении с эталонным методом контролируемого обучения (деревом решений ID3) на синтетических данных ARP-трафика с различным балансом классов. В ходе исследования решались следующие задачи: 1. Анализ предметной области. 2. Теоретическое описание алгоритмов K-средних, ID3 и комбинированного метода. 3. Разработка программной среды для генерации сетевого трафика с аномалиями, сбора и обработки данных. 4. Проведение экспериментов по обнаружению аномалий с использованием пяти моделей на данных с различной долей аномалий. 5. Сравнительный анализ эффективности моделей на основе метрик качества. Разработанная методика и проведенные эксперименты показали, что дерево решений ID3 обеспечивает наивысшую точность при наличии размеченных данных. Кластерный анализ (K-средних) продемонстрировал способность выявлять аномалии без разметки, однако его эффективность уступает ID3 и зависит от баланса классов. Комбинированный метод показал перспективные результаты, приближаясь к ID3. Полученные результаты могут быть использованы при проектировании систем обнаружения вторжений и для дальнейших исследований в области адаптивного анализа сетевого трафика. В процессе работы были использованы следующие информационные технологии и ресурсы: язык программирования Python с библиотеками Pandas, NumPy, Scikit-learn для анализа данных и реализации алгоритмов машинного обучения; библиотека Scapy для генерации и анализа сетевых пакетов; утилита командной строки TShark для захвата и предварительной обработки сетевого трафика. Данные экспериментов хранились и обрабатывались в формате CSV.
Topic of the final qualifying work: "Application of cluster analysis to detect anomalies in network traffic". The aim of the work is to assess the applicability of clustering in detecting network anomalies (in particular, the K-means algorithm and the combined K-means + ID3 approach) in comparison with the reference supervised learning method (ID3 decision tree) on synthetic ARP traffic data with different class balances. The following tasks were solved during the study: 1. Analysis of the subject area. 2. Theoretical description of the K-means, ID3 and combined method algorithms. 3. Development of a software environment for generating network traffic with anomalies, collecting and processing data. 4. Conducting experiments to detect anomalies using five models on data with different proportions of anomalies. 5. Comparative analysis of the effectiveness of models based on quality metrics. The developed methodology and conducted experiments showed that the ID3 decision tree provides the highest accuracy with labeled data. Cluster analysis (Kmeans) demonstrated the ability to detect anomalies without labeling, but its efficiency is inferior to ID3 and depends on the balance of classes. The combined method showed promising results, approaching ID3. The obtained results can be used in the design of intrusion detection systems and for further research in the field of adaptive analysis of network traffic. The following information technologies and resources were used in the work: the Python programming language with the Pandas, NumPy, Scikit-learn libraries for data analysis and implementation of machine learning algorithms; the Scapy library for generating and analyzing network packets; the TShark command line utility for capturing and pre-processing network traffic. The experimental data were stored and processed in CSV format.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 0
Last 30 days: 0