Исследование методов NLP в автоматической разметке контента по отраслевым таксономиям: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии»

Аулова, Лада Дмитриевна

Details

Title	Исследование методов NLP в автоматической разметке контента по отраслевым таксономиям: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии»
Creators	Аулова Лада Дмитриевна
Scientific adviser	Косторнова Александра Сергеевна
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2025
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	автоматическая разметка ; машинное обучение ; NLP ; таксономия ; BERT ; RoBERTa ; классификация текстов ; нейросетевые архитектуры ; LLM ; JSON ; automatic annotation ; machine learning ; taxonomy ; text classification ; neural network architectures
Document type	Bachelor graduation qualification work
File type	PDF
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	09.03.02
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2025/vr/vr25-5154
Rights	Доступ по паролю из сети Интернет (чтение, печать)
Additionally	New arrival
Record key	ru\spstu\vkr\37773
Record create date	9/23/2025

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Тема выпускной квалификационной работы: «Исследование методов NLP в автоматической разметке контента по отраслевым таксономиям». Работа посвящена разработке и сравнительному анализу методов обработки естественного языка (NLP) для автоматической классификации текстов по иерархическим отраслевым таксономиям. Задачи, которые решались в ходе исследования: - Анализ предметной области и особенностей отраслевых таксономий; - Сбор и предварительная обработка данных в формате JSON и CSV; - Обзор и выбор языковых моделей и программных библиотек; - Реализация моделей классификации на основе LLM (ruRoberta, RuBERT) и нейросетевых архитектур (GRU, LSTM, CNN); - Проведение обучения и тестирования моделей на специализированном датасете; - Сравнительный анализ моделей по метрикам Accuracy, Precision, Recall, F1-score; - Разработка программного модуля для автоматической разметки текстов. Работа выполнена на основе открытого корпуса текстов, представленного в формате JSON. Проведена предобработка данных и формирование обучающих выборок. Были реализованы и протестированы модели классификации с использованием предобученных языковых моделей RuBERT и ruRoberta, а также нейросетевые архитектуры CNN, GRU и LSTM. Результаты показали, что трансформерные модели обеспечивают наивысшее качество классификации, в то время как MLP-архитектуры демонстрируют высокую скорость и низкую ресурсоемкость. В работе представлена система автоматической разметки, пригодная для расширения на иерархические и мультиметочные классификации. Использованные информационные технологии: Язык программирования Python, библиотеки NumPy, Pandas, Matplotlib, HuggingFace Transformers, scikit-learn, TensorFlow, Keras, spaCy, NLTK; форматы JSON и CSV; среда разработки PyCharm и Google Colab.

Thesis topic: “Research of NLP Methods in Automatic Content Annotation by Industry Taxonomies.” This thesis is dedicated to the research and comparative evaluation of natural language processing (NLP) methods for automatic classification of textual documents according to hierarchical industry taxonomies. Tasks addressed in the study: - Analysis of the subject domain and structure of industry taxonomies; - Collection and preprocessing of data in JSON and CSV formats; - Selection of programming tools and open-source libraries for implementation; - Development and training of classification models using LLM-based (RuBERT, ruRoberta) and MLP-based (GRU, LSTM, CNN) neural architectures; - Evaluation of model performance using classification metrics such as Accuracy, Precision, Recall, and F1-score; - Creation of a software module for practical automatic text annotation. The study is based on a custom dataset compiled from open JSON-format research documents, each annotated with topic codes. The dataset was preprocessed and transformed into unified CSV files to facilitate training and testing of classification models. The implemented models include both fine-tuned transformer-based language models and traditional neural architectures , enabling a fair comparison of performance, computational cost, and applicability to content annotation tasks. A software solution was developed in Python to enable practical usage of the trained models for taxonomy-based content classification. Information technologies used: Python programming language, PyCharm IDE, NumPy, Pandas, Matplotlib, HuggingFace Transformers, TensorFlow, Keras, scikit-learn, NLTK, spaCy, JSON.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1 АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ
ГЛАВА 2 ОПИСАНИЕ DATASET
- 2.1Структура и содержание данных
- 2.2Преобразование данных для классификации
- 2.3Преимущества использования .json
- 2.4Применение данных для обучения моделей
- 2.5Проблемы и ограничения
- 2.6Заключение
ГЛАВА 3 ВЫБОР ПРОГРАММНОГО ИНСТРУМЕНТАРИЯ
- 3.1Выбор модулей и библиотек
- 3.2Выбор моделей
- 3.3Обоснование выбора
ГЛАВА 4 АНАЛИЗ АРХИТЕКТУР БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ И ДРУГИХ NLP МЕТОДОВ, ПРИМЕНИМЫХ К ЗАДАЧЕ АВТОРАЗМЕТКИ
- 4.1.Трансформеры
- 4.2.Рекуррентные нейронные сети LSTM и GRU
- 4.3.Сверточные нейронные сети (CNN)
- 4.4.Fine-tuning и обучение с учителем
- 4.5.Заключение
ГЛАВА 5 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ
- 5.1.Подготовка обучающего DataSet
- 5.2.Формирование DataSet без использования LLM
- 5.3.Формирование DataSet без использования LLM
- 5.4. Обучение модели на подготовленных данных
  - 5.4.1. Обучение модели с использованием LLM
  - 5.4.2. Обучение модели без использования LLM
- 5.5. Разработка программного модуля
- 5.5.1. Модуль на основе LLM
- 5.5.2. Модуль на основе классических нейросетей (GRU, CNN, LSTM)
ГЛАВА 6 СРАВНИТЕЛЬНЫЙ АНАЛИЗ РАБОТЫ МЕТОДОВ NLP В ЗАДАЧЕ АВТОМАТИЧЕСКОЙ РАЗМЕТКЕ КОНТЕНТА ПО ОТРАСЛЕВЫМ ТАКСОНОМИЯМ
- 6.1.Обзор протестированных методов
- 6.2.Сравнение по качеству классификации
- 6.3.Скорость обучения и ресурсоемкость
- 6.4.Заключение
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ А ФУНКЦИЯ ДООБУЧЕНИЯ МОДЕЛИ RoBERT trainer_llm_robert.py
ПРИЛОЖЕНИЕ Б ФУНКЦИЯ ДООБУЧЕНИЯ МОДЕЛИ BERT trainer_llm_bert.py
ПРИЛОЖЕНИЕ В ФУНКЦИЯ ОБУЧЕНИЯ МОДЕЛИ GRU trainer_gru.py
ПРИЛОЖЕНИЕ Г ФУНКЦИЯ ОБУЧЕНИЯ МОДЕЛИ LSTM trainer_lstm.py
ПРИЛОЖЕНИЕ Д ФУНКЦИЯ ОБУЧЕНИЯ МОДЕЛИ CNN trainer_cnn.py
ПРИЛОЖЕНИЕ Е ОБЩАЯ ФУНКЦИЯ ОБУЧЕНИЯ МОДЕЛЕЙ trainer.py
ПРИЛОЖЕНИЕ Ж ФУНКЦИЯ ПРЕДСКАЗАНИЯ РУБРИК ДЛЯ LLM МОДЕЛЕЙ predict_llm.py
ПРИЛОЖЕНИЕ З ФУНКЦИЯ ПРЕДСКАЗАНИЯ РУБРИК ДЛЯ NO-LLM МОДЕЛЕЙ predict_nollm.py
ПРИЛОЖЕНИЕ И

Access count: 0
Last 30 days: 0

Detailed usage statistics