Details

Title Применение кластерного анализа для выявления аномалий в сетевом трафике: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии»
Creators Павлюченко Филип
Scientific adviser Сорокина Наталья Владимировна
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects кластерный анализ ; K-Средних ; Дерево решений ; ID3 ; Обнаружение аномалий ; сетевой трафик ; ARP-трафик ; машинное обучение ; системы обнаружения вторжений ; cluster analysis ; K-Means ; Decision tree ; Anomaly detection ; network traffic ; ARP traffic ; machine learning ; intrusion detection systems
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.02
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-5159
Rights Доступ по паролю из сети Интернет (чтение, печать)
Additionally New arrival
Record key ru\spstu\vkr\37352
Record create date 9/19/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Тема выпускной квалификационной работы: «Применение кластерного анализа для выявления аномалий в сетевом трафике». Целью работы является оценка применимости кластеризации при выявлении сетевых аномалий (в частности, алгоритма K-средних и комбинированного подхода K-средних + ID3) в сравнении с эталонным методом контролируемого обучения (деревом решений ID3) на синтетических данных ARP-трафика с различным балансом классов. В ходе исследования решались следующие задачи: 1. Анализ предметной области. 2. Теоретическое описание алгоритмов K-средних, ID3 и комбинированного метода. 3. Разработка программной среды для генерации сетевого трафика с аномалиями, сбора и обработки данных. 4. Проведение экспериментов по обнаружению аномалий с использованием пяти моделей на данных с различной долей аномалий. 5. Сравнительный анализ эффективности моделей на основе метрик качества. Разработанная методика и проведенные эксперименты показали, что дерево решений ID3 обеспечивает наивысшую точность при наличии размеченных данных. Кластерный анализ (K-средних) продемонстрировал способность выявлять аномалии без разметки, однако его эффективность уступает ID3 и зависит от баланса классов. Комбинированный метод показал перспективные результаты, приближаясь к ID3. Полученные результаты могут быть использованы при проектировании систем обнаружения вторжений и для дальнейших исследований в области адаптивного анализа сетевого трафика. В процессе работы были использованы следующие информационные технологии и ресурсы: язык программирования Python с библиотеками Pandas, NumPy, Scikit-learn для анализа данных и реализации алгоритмов машинного обучения; библиотека Scapy для генерации и анализа сетевых пакетов; утилита командной строки TShark для захвата и предварительной обработки сетевого трафика. Данные экспериментов хранились и обрабатывались в формате CSV.

Topic of the final qualifying work: "Application of cluster analysis to detect anomalies in network traffic". The aim of the work is to assess the applicability of clustering in detecting network anomalies (in particular, the K-means algorithm and the combined K-means + ID3 approach) in comparison with the reference supervised learning method (ID3 decision tree) on synthetic ARP traffic data with different class balances. The following tasks were solved during the study: 1. Analysis of the subject area. 2. Theoretical description of the K-means, ID3 and combined method algorithms. 3. Development of a software environment for generating network traffic with anomalies, collecting and processing data. 4. Conducting experiments to detect anomalies using five models on data with different proportions of anomalies. 5. Comparative analysis of the effectiveness of models based on quality metrics. The developed methodology and conducted experiments showed that the ID3 decision tree provides the highest accuracy with labeled data. Cluster analysis (Kmeans) demonstrated the ability to detect anomalies without labeling, but its efficiency is inferior to ID3 and depends on the balance of classes. The combined method showed promising results, approaching ID3. The obtained results can be used in the design of intrusion detection systems and for further research in the field of adaptive analysis of network traffic. The following information technologies and resources were used in the work: the Python programming language with the Pandas, NumPy, Scikit-learn libraries for data analysis and implementation of machine learning algorithms; the Scapy library for generating and analyzing network packets; the TShark command line utility for capturing and pre-processing network traffic. The experimental data were stored and processed in CSV format.

Network User group Action
ILC SPbPU Local Network All
Read Print
Internet Authorized users SPbPU
Read Print
Internet Anonymous

Access count: 0 
Last 30 days: 0

Detailed usage statistics