Автоматизированная система анализа киберугроз на основе обработки естественного языка: выпускная квалификационная работа специалиста: направление 10.05.04 «Информационно-аналитические системы безопасности» ; образовательная программа 10.05.04_01 «Автоматизация информационно-аналитической деятельности» = Automated cyber threat analysis system based on natural language processing

Балабуркин, Роман Сергеевич

Details

Title	Автоматизированная система анализа киберугроз на основе обработки естественного языка: выпускная квалификационная работа специалиста: направление 10.05.04 «Информационно-аналитические системы безопасности» ; образовательная программа 10.05.04_01 «Автоматизация информационно-аналитической деятельности» = Automated cyber threat analysis system based on natural language processing
Creators	Балабуркин Роман Сергеевич
Scientific adviser	Крундышев Василий Михайлович
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2026
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	обработка естественного языка ; извлечение информации ; cyber threat intelligence ; ner ; stix ; natural language processing ; information extraction
Document type	Specialist graduation qualification work
Language	Russian
Level of education	Specialist
Speciality code (FGOS)	10.05.04
Speciality group (FGOS)	100000 - Информационная безопасность
DOI	10.18720/SPBPU/3/2026/vr/vr26-418
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	ru\spstu\vkr\40261
Record create date	4/20/2026

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Целью работы является автоматизация извлечения структурированных данных о киберугрозах из текстов на естественном языке. Объектом исследования является неструктурированная информация о киберугрозах, представленная открытыми текстовыми источниками. Задачи, решаемые в ходе исследования: 1. Исследовать особенности анализа киберугроз при обеспечении информационной безопасности. 2. Провести анализ подходов к извлечению информации из текстов на естественном языке. 3. Разработать подход к извлечению данных о киберугрозах на основе обработки естественного языка. 4. Экспериментально оценить предлагаемое решение с использованием разработанного прототипа. В ходе работы был проведён анализ особенностей анализа киберугроз при обеспечении информационной безопасности. Были исследованы подходы к извлечению информации из текстов и их применимость для автоматизированного извлечения данных о киберугрозах. В результате работы был сформирован и размечен уникальный набор данных на основе русскоязычных текстов. Разработан гибридный подход, сочетающий методы машинного обучения, реализован программный прототип, формирующий структурированное представление информации в формате STIX 2.1 с возможностью интеграции в платформу OpenCTI. Полученные результаты могут быть использованы для автоматизации процессов анализа киберугроз.

The purpose of the study is to automate the extraction of structured data about cyber threats from natural language texts. The object of study is unstructured information about cyber threats presented in open text sources. The research set the following goals: 1. Investigate the features of cyber threat analysis in ensuring information security. 2. Analyze approaches to extracting information from natural language texts. 3. Develop an approach to extracting data on cyber threats based on natural language processing. 4. Experimentally evaluate the proposed solution using the developed prototype. During the work, an analysis of the characteristics of cyber threat analysis in ensuring information security was conducted. Approaches to extracting information from texts and their applicability for automated extraction of data on cyber threats were investigated. As a result of the work, a unique dataset based on Russian-language texts was formed and annotated. A hybrid approach combining machine learning methods was developed, and a software prototype was implemented that forms a structured representation of information in STIX 2.1 format with the possibility of integration into the OpenCTI platform. The results obtained can be used to automate cyber threat analysis processes.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

...