Исследование методов NLP в автоматической разметке контента по отраслевым таксономиям: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии»

Аулова, Лада Дмитриевна

Детальная информация

Название	Исследование методов NLP в автоматической разметке контента по отраслевым таксономиям: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии»
Авторы	Аулова Лада Дмитриевна
Научный руководитель	Косторнова Александра Сергеевна
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения	Санкт-Петербург, 2025
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	автоматическая разметка ; машинное обучение ; NLP ; таксономия ; BERT ; RoBERTa ; классификация текстов ; нейросетевые архитектуры ; LLM ; JSON ; automatic annotation ; machine learning ; taxonomy ; text classification ; neural network architectures
Тип документа	Выпускная квалификационная работа бакалавра
Тип файла	PDF
Язык	Русский
Уровень высшего образования	Бакалавриат
Код специальности ФГОС	09.03.02
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2025/vr/vr25-5154
Права доступа	Доступ по паролю из сети Интернет (чтение, печать)
Дополнительно	Новинка
Ключ записи	ru\spstu\vkr\37773
Дата создания записи	23.09.2025

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Тема выпускной квалификационной работы: «Исследование методов NLP в автоматической разметке контента по отраслевым таксономиям». Работа посвящена разработке и сравнительному анализу методов обработки естественного языка (NLP) для автоматической классификации текстов по иерархическим отраслевым таксономиям. Задачи, которые решались в ходе исследования: - Анализ предметной области и особенностей отраслевых таксономий; - Сбор и предварительная обработка данных в формате JSON и CSV; - Обзор и выбор языковых моделей и программных библиотек; - Реализация моделей классификации на основе LLM (ruRoberta, RuBERT) и нейросетевых архитектур (GRU, LSTM, CNN); - Проведение обучения и тестирования моделей на специализированном датасете; - Сравнительный анализ моделей по метрикам Accuracy, Precision, Recall, F1-score; - Разработка программного модуля для автоматической разметки текстов. Работа выполнена на основе открытого корпуса текстов, представленного в формате JSON. Проведена предобработка данных и формирование обучающих выборок. Были реализованы и протестированы модели классификации с использованием предобученных языковых моделей RuBERT и ruRoberta, а также нейросетевые архитектуры CNN, GRU и LSTM. Результаты показали, что трансформерные модели обеспечивают наивысшее качество классификации, в то время как MLP-архитектуры демонстрируют высокую скорость и низкую ресурсоемкость. В работе представлена система автоматической разметки, пригодная для расширения на иерархические и мультиметочные классификации. Использованные информационные технологии: Язык программирования Python, библиотеки NumPy, Pandas, Matplotlib, HuggingFace Transformers, scikit-learn, TensorFlow, Keras, spaCy, NLTK; форматы JSON и CSV; среда разработки PyCharm и Google Colab.

Thesis topic: “Research of NLP Methods in Automatic Content Annotation by Industry Taxonomies.” This thesis is dedicated to the research and comparative evaluation of natural language processing (NLP) methods for automatic classification of textual documents according to hierarchical industry taxonomies. Tasks addressed in the study: - Analysis of the subject domain and structure of industry taxonomies; - Collection and preprocessing of data in JSON and CSV formats; - Selection of programming tools and open-source libraries for implementation; - Development and training of classification models using LLM-based (RuBERT, ruRoberta) and MLP-based (GRU, LSTM, CNN) neural architectures; - Evaluation of model performance using classification metrics such as Accuracy, Precision, Recall, and F1-score; - Creation of a software module for practical automatic text annotation. The study is based on a custom dataset compiled from open JSON-format research documents, each annotated with topic codes. The dataset was preprocessed and transformed into unified CSV files to facilitate training and testing of classification models. The implemented models include both fine-tuned transformer-based language models and traditional neural architectures , enabling a fair comparison of performance, computational cost, and applicability to content annotation tasks. A software solution was developed in Python to enable practical usage of the trained models for taxonomy-based content classification. Information technologies used: Python programming language, PyCharm IDE, NumPy, Pandas, Matplotlib, HuggingFace Transformers, TensorFlow, Keras, scikit-learn, NLTK, spaCy, JSON.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1 АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ
ГЛАВА 2 ОПИСАНИЕ DATASET
- 2.1Структура и содержание данных
- 2.2Преобразование данных для классификации
- 2.3Преимущества использования .json
- 2.4Применение данных для обучения моделей
- 2.5Проблемы и ограничения
- 2.6Заключение
ГЛАВА 3 ВЫБОР ПРОГРАММНОГО ИНСТРУМЕНТАРИЯ
- 3.1Выбор модулей и библиотек
- 3.2Выбор моделей
- 3.3Обоснование выбора
ГЛАВА 4 АНАЛИЗ АРХИТЕКТУР БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ И ДРУГИХ NLP МЕТОДОВ, ПРИМЕНИМЫХ К ЗАДАЧЕ АВТОРАЗМЕТКИ
- 4.1.Трансформеры
- 4.2.Рекуррентные нейронные сети LSTM и GRU
- 4.3.Сверточные нейронные сети (CNN)
- 4.4.Fine-tuning и обучение с учителем
- 4.5.Заключение
ГЛАВА 5 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ
- 5.1.Подготовка обучающего DataSet
- 5.2.Формирование DataSet без использования LLM
- 5.3.Формирование DataSet без использования LLM
- 5.4. Обучение модели на подготовленных данных
  - 5.4.1. Обучение модели с использованием LLM
  - 5.4.2. Обучение модели без использования LLM
- 5.5. Разработка программного модуля
- 5.5.1. Модуль на основе LLM
- 5.5.2. Модуль на основе классических нейросетей (GRU, CNN, LSTM)
ГЛАВА 6 СРАВНИТЕЛЬНЫЙ АНАЛИЗ РАБОТЫ МЕТОДОВ NLP В ЗАДАЧЕ АВТОМАТИЧЕСКОЙ РАЗМЕТКЕ КОНТЕНТА ПО ОТРАСЛЕВЫМ ТАКСОНОМИЯМ
- 6.1.Обзор протестированных методов
- 6.2.Сравнение по качеству классификации
- 6.3.Скорость обучения и ресурсоемкость
- 6.4.Заключение
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ А ФУНКЦИЯ ДООБУЧЕНИЯ МОДЕЛИ RoBERT trainer_llm_robert.py
ПРИЛОЖЕНИЕ Б ФУНКЦИЯ ДООБУЧЕНИЯ МОДЕЛИ BERT trainer_llm_bert.py
ПРИЛОЖЕНИЕ В ФУНКЦИЯ ОБУЧЕНИЯ МОДЕЛИ GRU trainer_gru.py
ПРИЛОЖЕНИЕ Г ФУНКЦИЯ ОБУЧЕНИЯ МОДЕЛИ LSTM trainer_lstm.py
ПРИЛОЖЕНИЕ Д ФУНКЦИЯ ОБУЧЕНИЯ МОДЕЛИ CNN trainer_cnn.py
ПРИЛОЖЕНИЕ Е ОБЩАЯ ФУНКЦИЯ ОБУЧЕНИЯ МОДЕЛЕЙ trainer.py
ПРИЛОЖЕНИЕ Ж ФУНКЦИЯ ПРЕДСКАЗАНИЯ РУБРИК ДЛЯ LLM МОДЕЛЕЙ predict_llm.py
ПРИЛОЖЕНИЕ З ФУНКЦИЯ ПРЕДСКАЗАНИЯ РУБРИК ДЛЯ NO-LLM МОДЕЛЕЙ predict_nollm.py
ПРИЛОЖЕНИЕ И

Количество обращений: 0
За последние 30 дней: 0

Подробная статистика