Детальная информация
| Название | Использование технологии векторного вложения слов для обнаружения вредоносного ПО: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Development and research of a malware detectionmethod based on data vector representation (embeddings) using modern machinelearning approaches |
|---|---|
| Авторы | Скибицкий Виталий Валерьевич |
| Научный руководитель | Громов Виктор Никифорович |
| Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
| Выходные сведения | Санкт-Петербург, 2025 |
| Коллекция | Выпускные квалификационные работы ; Общая коллекция |
| Тематика | векторные представления ; вредоносное ПО ; машинное ; обучение ; трансформеры ; DistilBERT ; Word2Vec ; классификация ; интерпретируемость ; vector embeddings ; malware ; machine learning ; transformers ; DistilDert ; classification ; interpretability |
| Тип документа | Выпускная квалификационная работа бакалавра |
| Язык | Русский |
| Уровень высшего образования | Бакалавриат |
| Код специальности ФГОС | 09.03.02 |
| Группа специальностей ФГОС | 090000 - Информатика и вычислительная техника |
| DOI | 10.18720/SPBPU/3/2025/vr/vr26-1012 |
| Права доступа | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
| Дополнительно | Новинка |
| Ключ записи | ru\spstu\vkr\40565 |
| Дата создания записи | 17.06.2026 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет возможно после подготовки администраторами необходимых файлов
| Группа | Анонимные пользователи |
|---|---|
| Сеть | Интернет |
Задачи работы: 1) Провести обзор и сравнительный анализ современных методов машинного обучения для классификации вредоносного ПО. 2) Выбрать оптимальные методы предобработки данных и генерации векторных представлений для анализа исполняемых файлов. 3) Разработать алгоритм классификации на основе трансформерных архитектур (DistilBERT) и методов контекстного embedding (Word2Vec). 4) Реализовать программное решение для классификации вредоносных файлов с оценкой качества работы алгоритма. 5) Провести тестирование модели и анализ результатов с использованием метрик точности (accuracy, F1-score). 6) Исследовать возможности интерпретации результатов работы модели методами explainable AI (SHAP, LIME). В результате выполнения данной работы была разработана методика обнаружения вредоносного программного обеспечения с использованием технологий векторного представления данных. Предложенный подход основан на применении архитектуры DistilBERT для генерации контекстных эмбеддингов opcode-последовательностей и их последующей классификации с помощью ансамблевых методов. Экспериментальные исследования показали, что использование трансформерных моделей позволяет достичь точности классификации до 97,24% на тестовой выборке, что на 12% превышает показатели традиционных CNNметодов. Разработанный алгоритм демонстрирует устойчивую работу с различными семействами вредоносного ПО, включая полиморфные и метаморфные угрозы.
The following list represents objectives of this thesis: 1) Review and comparative analysis of modern machine learning methods for malware classification. 2) Selection of optimal data preprocessing methods and vector representation generation for executable file analysis. 3) Development of a classification algorithm based on transformer architectures (DistilBERT) and contextual embedding methods (Word2Vec). 4) Implementation of a software solution for malware classification with algorithm quality assessment. 5) Model testing and result analysis using accuracy metrics (accuracy, F1-score). 6) Investigation of model interpretability through explainable AI methods (SHAP, LIME). This work presents a developed methodology for malware detection using data vector representation technologies. The proposed approach utilizes the DistilBERT architecture for generating contextual embeddings of opcode sequences followed by classification using ensemble methods. Experimental studies demonstrate that transformer models achieve classification accuracy up to 97.24% on test data, outperforming traditional CNN methods by 12%. The developed algorithm shows consistent performance across various malware families, including polymorphic and metamorphic threats.
| Место доступа | Группа пользователей | Действие |
|---|---|---|
| Локальная сеть ИБК СПбПУ | Все |
|
| Интернет | Авторизованные пользователи СПбПУ |
|
| Интернет | Анонимные пользователи |
|