Использование технологии векторного вложения слов для обнаружения вредоносного ПО: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Development and research of a malware detectionmethod based on data vector representation (embeddings) using modern machinelearning approaches

Скибицкий, Виталий Валерьевич

Детальная информация

Название	Использование технологии векторного вложения слов для обнаружения вредоносного ПО: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Development and research of a malware detectionmethod based on data vector representation (embeddings) using modern machinelearning approaches
Авторы	Скибицкий Виталий Валерьевич
Научный руководитель	Громов Виктор Никифорович
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения	Санкт-Петербург, 2025
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	векторные представления ; вредоносное ПО ; машинное ; обучение ; трансформеры ; DistilBERT ; Word2Vec ; классификация ; интерпретируемость ; vector embeddings ; malware ; machine learning ; transformers ; DistilDert ; classification ; interpretability
Тип документа	Выпускная квалификационная работа бакалавра
Язык	Русский
Уровень высшего образования	Бакалавриат
Код специальности ФГОС	09.03.02
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2025/vr/vr26-1012
Права доступа	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно	Новинка
Ключ записи	ru\spstu\vkr\40565
Дата создания записи	17.06.2026

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Действие 'Загрузить' будет возможно после подготовки администраторами необходимых файлов

Группа	Анонимные пользователи
Сеть	Интернет

Задачи работы: 1) Провести обзор и сравнительный анализ современных методов машинного обучения для классификации вредоносного ПО. 2) Выбрать оптимальные методы предобработки данных и генерации векторных представлений для анализа исполняемых файлов. 3) Разработать алгоритм классификации на основе трансформерных архитектур (DistilBERT) и методов контекстного embedding (Word2Vec). 4) Реализовать программное решение для классификации вредоносных файлов с оценкой качества работы алгоритма. 5) Провести тестирование модели и анализ результатов с использованием метрик точности (accuracy, F1-score). 6) Исследовать возможности интерпретации результатов работы модели методами explainable AI (SHAP, LIME). В результате выполнения данной работы была разработана методика обнаружения вредоносного программного обеспечения с использованием технологий векторного представления данных. Предложенный подход основан на применении архитектуры DistilBERT для генерации контекстных эмбеддингов opcode-последовательностей и их последующей классификации с помощью ансамблевых методов. Экспериментальные исследования показали, что использование трансформерных моделей позволяет достичь точности классификации до 97,24% на тестовой выборке, что на 12% превышает показатели традиционных CNNметодов. Разработанный алгоритм демонстрирует устойчивую работу с различными семействами вредоносного ПО, включая полиморфные и метаморфные угрозы.

The following list represents objectives of this thesis: 1) Review and comparative analysis of modern machine learning methods for malware classification. 2) Selection of optimal data preprocessing methods and vector representation generation for executable file analysis. 3) Development of a classification algorithm based on transformer architectures (DistilBERT) and contextual embedding methods (Word2Vec). 4) Implementation of a software solution for malware classification with algorithm quality assessment. 5) Model testing and result analysis using accuracy metrics (accuracy, F1-score). 6) Investigation of model interpretability through explainable AI methods (SHAP, LIME). This work presents a developed methodology for malware detection using data vector representation technologies. The proposed approach utilizes the DistilBERT architecture for generating contextual embeddings of opcode sequences followed by classification using ensemble methods. Experimental studies demonstrate that transformer models achieve classification accuracy up to 97.24% on test data, outperforming traditional CNN methods by 12%. The developed algorithm shows consistent performance across various malware families, including polymorphic and metamorphic threats.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

...