Details

Title Использование технологии векторного вложения слов для обнаружения вредоносного ПО: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Development and research of a malware detectionmethod based on data vector representation (embeddings) using modern machinelearning approaches
Creators Скибицкий Виталий Валерьевич
Scientific adviser Громов Виктор Никифорович
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects векторные представления ; вредоносное ПО ; машинное ; обучение ; трансформеры ; DistilBERT ; Word2Vec ; классификация ; интерпретируемость ; vector embeddings ; malware ; machine learning ; transformers ; DistilDert ; classification ; interpretability
Document type Bachelor graduation qualification work
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.02
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr26-1012
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key ru\spstu\vkr\40565
Record create date 6/17/2026

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if administrator prepare required files

Group Anonymous
Network Internet

Задачи работы: 1) Провести обзор и сравнительный анализ современных методов машинного обучения для классификации вредоносного ПО. 2) Выбрать оптимальные методы предобработки данных и генерации векторных представлений для анализа исполняемых файлов. 3) Разработать алгоритм классификации на основе трансформерных архитектур (DistilBERT) и методов контекстного embedding (Word2Vec). 4) Реализовать программное решение для классификации вредоносных файлов с оценкой качества работы алгоритма. 5) Провести тестирование модели и анализ результатов с использованием метрик точности (accuracy, F1-score). 6) Исследовать возможности интерпретации результатов работы модели методами explainable AI (SHAP, LIME). В результате выполнения данной работы была разработана методика обнаружения вредоносного программного обеспечения с использованием технологий векторного представления данных. Предложенный подход основан на применении архитектуры DistilBERT для генерации контекстных эмбеддингов opcode-последовательностей и их последующей классификации с помощью ансамблевых методов. Экспериментальные исследования показали, что использование трансформерных моделей позволяет достичь точности классификации до 97,24% на тестовой выборке, что на 12% превышает показатели традиционных CNNметодов. Разработанный алгоритм демонстрирует устойчивую работу с различными семействами вредоносного ПО, включая полиморфные и метаморфные угрозы.

The following list represents objectives of this thesis: 1) Review and comparative analysis of modern machine learning methods for malware classification. 2) Selection of optimal data preprocessing methods and vector representation generation for executable file analysis. 3) Development of a classification algorithm based on transformer architectures (DistilBERT) and contextual embedding methods (Word2Vec). 4) Implementation of a software solution for malware classification with algorithm quality assessment. 5) Model testing and result analysis using accuracy metrics (accuracy, F1-score). 6) Investigation of model interpretability through explainable AI methods (SHAP, LIME). This work presents a developed methodology for malware detection using data vector representation technologies. The proposed approach utilizes the DistilBERT architecture for generating contextual embeddings of opcode sequences followed by classification using ensemble methods. Experimental studies demonstrate that transformer models achieve classification accuracy up to 97.24% on test data, outperforming traditional CNN methods by 12%. The developed algorithm shows consistent performance across various malware families, including polymorphic and metamorphic threats.

Network User group Action
ILC SPbPU Local Network All
Read Print
Internet Authorized users SPbPU
Read Print
Internet Anonymous
...