Использование технологии векторного вложения слов для обнаружения вредоносного ПО: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Development and research of a malware detectionmethod based on data vector representation (embeddings) using modern machinelearning approaches

Скибицкий, Виталий Валерьевич

Details

Title	Использование технологии векторного вложения слов для обнаружения вредоносного ПО: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Development and research of a malware detectionmethod based on data vector representation (embeddings) using modern machinelearning approaches
Creators	Скибицкий Виталий Валерьевич
Scientific adviser	Громов Виктор Никифорович
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2025
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	векторные представления ; вредоносное ПО ; машинное ; обучение ; трансформеры ; DistilBERT ; Word2Vec ; классификация ; интерпретируемость ; vector embeddings ; malware ; machine learning ; transformers ; DistilDert ; classification ; interpretability
Document type	Bachelor graduation qualification work
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	09.03.02
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2025/vr/vr26-1012
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	ru\spstu\vkr\40565
Record create date	6/17/2026

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if administrator prepare required files

Group	Anonymous
Network	Internet

Задачи работы: 1) Провести обзор и сравнительный анализ современных методов машинного обучения для классификации вредоносного ПО. 2) Выбрать оптимальные методы предобработки данных и генерации векторных представлений для анализа исполняемых файлов. 3) Разработать алгоритм классификации на основе трансформерных архитектур (DistilBERT) и методов контекстного embedding (Word2Vec). 4) Реализовать программное решение для классификации вредоносных файлов с оценкой качества работы алгоритма. 5) Провести тестирование модели и анализ результатов с использованием метрик точности (accuracy, F1-score). 6) Исследовать возможности интерпретации результатов работы модели методами explainable AI (SHAP, LIME). В результате выполнения данной работы была разработана методика обнаружения вредоносного программного обеспечения с использованием технологий векторного представления данных. Предложенный подход основан на применении архитектуры DistilBERT для генерации контекстных эмбеддингов opcode-последовательностей и их последующей классификации с помощью ансамблевых методов. Экспериментальные исследования показали, что использование трансформерных моделей позволяет достичь точности классификации до 97,24% на тестовой выборке, что на 12% превышает показатели традиционных CNNметодов. Разработанный алгоритм демонстрирует устойчивую работу с различными семействами вредоносного ПО, включая полиморфные и метаморфные угрозы.

The following list represents objectives of this thesis: 1) Review and comparative analysis of modern machine learning methods for malware classification. 2) Selection of optimal data preprocessing methods and vector representation generation for executable file analysis. 3) Development of a classification algorithm based on transformer architectures (DistilBERT) and contextual embedding methods (Word2Vec). 4) Implementation of a software solution for malware classification with algorithm quality assessment. 5) Model testing and result analysis using accuracy metrics (accuracy, F1-score). 6) Investigation of model interpretability through explainable AI methods (SHAP, LIME). This work presents a developed methodology for malware detection using data vector representation technologies. The proposed approach utilizes the DistilBERT architecture for generating contextual embeddings of opcode sequences followed by classification using ensemble methods. Experimental studies demonstrate that transformer models achieve classification accuracy up to 97.24% on test data, outperforming traditional CNN methods by 12%. The developed algorithm shows consistent performance across various malware families, including polymorphic and metamorphic threats.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

...