Details
| Title | Использование технологии векторного вложения слов для обнаружения вредоносного ПО: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Development and research of a malware detectionmethod based on data vector representation (embeddings) using modern machinelearning approaches |
|---|---|
| Creators | Скибицкий Виталий Валерьевич |
| Scientific adviser | Громов Виктор Никифорович |
| Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
| Imprint | Санкт-Петербург, 2025 |
| Collection | Выпускные квалификационные работы ; Общая коллекция |
| Subjects | векторные представления ; вредоносное ПО ; машинное ; обучение ; трансформеры ; DistilBERT ; Word2Vec ; классификация ; интерпретируемость ; vector embeddings ; malware ; machine learning ; transformers ; DistilDert ; classification ; interpretability |
| Document type | Bachelor graduation qualification work |
| Language | Russian |
| Level of education | Bachelor |
| Speciality code (FGOS) | 09.03.02 |
| Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
| DOI | 10.18720/SPBPU/3/2025/vr/vr26-1012 |
| Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
| Additionally | New arrival |
| Record key | ru\spstu\vkr\40565 |
| Record create date | 6/17/2026 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if administrator prepare required files
| Group | Anonymous |
|---|---|
| Network | Internet |
Задачи работы: 1) Провести обзор и сравнительный анализ современных методов машинного обучения для классификации вредоносного ПО. 2) Выбрать оптимальные методы предобработки данных и генерации векторных представлений для анализа исполняемых файлов. 3) Разработать алгоритм классификации на основе трансформерных архитектур (DistilBERT) и методов контекстного embedding (Word2Vec). 4) Реализовать программное решение для классификации вредоносных файлов с оценкой качества работы алгоритма. 5) Провести тестирование модели и анализ результатов с использованием метрик точности (accuracy, F1-score). 6) Исследовать возможности интерпретации результатов работы модели методами explainable AI (SHAP, LIME). В результате выполнения данной работы была разработана методика обнаружения вредоносного программного обеспечения с использованием технологий векторного представления данных. Предложенный подход основан на применении архитектуры DistilBERT для генерации контекстных эмбеддингов opcode-последовательностей и их последующей классификации с помощью ансамблевых методов. Экспериментальные исследования показали, что использование трансформерных моделей позволяет достичь точности классификации до 97,24% на тестовой выборке, что на 12% превышает показатели традиционных CNNметодов. Разработанный алгоритм демонстрирует устойчивую работу с различными семействами вредоносного ПО, включая полиморфные и метаморфные угрозы.
The following list represents objectives of this thesis: 1) Review and comparative analysis of modern machine learning methods for malware classification. 2) Selection of optimal data preprocessing methods and vector representation generation for executable file analysis. 3) Development of a classification algorithm based on transformer architectures (DistilBERT) and contextual embedding methods (Word2Vec). 4) Implementation of a software solution for malware classification with algorithm quality assessment. 5) Model testing and result analysis using accuracy metrics (accuracy, F1-score). 6) Investigation of model interpretability through explainable AI methods (SHAP, LIME). This work presents a developed methodology for malware detection using data vector representation technologies. The proposed approach utilizes the DistilBERT architecture for generating contextual embeddings of opcode sequences followed by classification using ensemble methods. Experimental studies demonstrate that transformer models achieve classification accuracy up to 97.24% on test data, outperforming traditional CNN methods by 12%. The developed algorithm shows consistent performance across various malware families, including polymorphic and metamorphic threats.
| Network | User group | Action |
|---|---|---|
| ILC SPbPU Local Network | All |
|
| Internet | Authorized users SPbPU |
|
| Internet | Anonymous |
|