Machine Learning-Based Approaches for Malware Detection in PE Files: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа) / Intelligent Systems (International Educational Program)»

Ларёв, Михаил Михайлович

Details

Title	Machine Learning-Based Approaches for Malware Detection in PE Files: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа) / Intelligent Systems (International Educational Program)»
Creators	Ларёв Михаил Михайлович
Scientific adviser	Сальников Вячеслав Юрьевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2024
Collection	Выпускные квалификационные работы; Общая коллекция
Subjects	machine learning; malware; detection; windows; rust; python
Document type	Master graduation qualification work
File type	PDF
Language	Russian
Level of education	Master
Speciality code (FGOS)	09.04.01
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2024/vr/vr24-5645
Rights	Доступ по паролю из сети Интернет (чтение)
Additionally	New arrival
Record key	ru\spstu\vkr\33756
Record create date	9/2/2024

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Вредоносное ПО представляет значительную угрозу безопасности и стабильности вычислительных систем. Традиционные методы обнаружения на основе сигнатур и поведения часто не поспевают за быстро меняющимся ландшафтом вредоносного ПО. В этой исследовательской работе «Подходы на основе машинного обучения для обнаружения вредоносного ПО в PE-файлах» изучается применение методов машинного обучения для улучшения обнаружения вредоносного ПО. Сначала в диссертации дается обзор распространенных методов обнаружения вредоносного ПО, включая обнаружение на основе сигнатур, обнаружение на основе поведения, анализ в песочнице и эвристический анализ. В ней также рассматривается современное антивирусное программное обеспечение и роль машинного обучения в обнаружении вредоносного ПО. В разделах теоретической структуры и методологии представлены формат файла PE, используемые наборы данных (образцы DikeDataset и VirusShare.com) и различные оцененные модели машинного обучения, такие как AdaBoost, LightGBM, Random Forest, CatBoost Экспериментальная установка включает предварительную обработку данных, разведочный анализ данных, инициализацию модели и оптимизацию параметров, пакетное обучение модели и интерпретацию прогнозов модели с использованием библиотеки LIME. Обсуждение результатов охватывает метрики оценки (точность, точность, отзыв и оценка F1) и сравнение производительности реализованных моделей машинного обучения. Результаты этой диссертации демонстрируют потенциал подходов на основе машинного обучения в улучшении обнаружения вредоносных программ в PE-файлах. Результаты показывают, что ансамблевые методы, такие как LightGBM и XGBoost, превосходят другие модели с точки зрения точности обнаружения и общей производительности. В диссертации также исследуются потенциальные улучшения и будущие направления исследований в этой области.

Malware poses a significant threat to the security and stability of computing systems. Traditional signature-based and behavior-based detection methods often struggle to keep up with the rapidly evolving landscape of malware. This research work “Machine Learning-Based Approaches for Malware Detection in PE Files” explores the application of machine learning techniques to enhance malware detection. The thesis first provides an overview of common malware detection methods, including signature-based detection, behavior-based detection, sandbox analysis, and heuristic analysis. It also examines contemporary antimalware software and the role of machine learning in malware detection. The theoretical framework and methodology sections introduce the PE file format, datasets used (DikeDataset and VirusShare.com samples), and various machine learning models evaluated, such as AdaBoost, LightGBM, Random Forest, CatBoost The experimental setup involves data preprocessing, exploratory data analysis, model initialization and parameter optimization, batch model training, and interpretation of the model predictions using the LIME library. The results discussion covers the evaluation metrics (accuracy, precision, recall, and F1 score) and a comparison of the performance of the implemented machine learning models. The findings of this thesis demonstrate the potential of machine learning-based approaches in enhancing malware detection in PE files. The results indicate that ensemble methods, such as LightGBM and XGBoost, outperform other models in terms of detection accuracy and overall performance. The thesis also explores potential improvements and future research directions in this domain.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 0
Last 30 days: 0

Detailed usage statistics