Details

Title Исследование методов NLP в автоматической разметке контента по отраслевым таксономиям: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии»
Creators Аулова Лада Дмитриевна
Scientific adviser Косторнова Александра Сергеевна
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects автоматическая разметка ; машинное обучение ; NLP ; таксономия ; BERT ; RoBERTa ; классификация текстов ; нейросетевые архитектуры ; LLM ; JSON ; automatic annotation ; machine learning ; taxonomy ; text classification ; neural network architectures
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.02
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-5154
Rights Доступ по паролю из сети Интернет (чтение, печать)
Additionally New arrival
Record key ru\spstu\vkr\37773
Record create date 9/23/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Тема выпускной квалификационной работы: «Исследование методов NLP в автоматической разметке контента по отраслевым таксономиям». Работа посвящена разработке и сравнительному анализу методов обработки естественного языка (NLP) для автоматической классификации текстов по иерархическим отраслевым таксономиям. Задачи, которые решались в ходе исследования: - Анализ предметной области и особенностей отраслевых таксономий; - Сбор и предварительная обработка данных в формате JSON и CSV; - Обзор и выбор языковых моделей и программных библиотек; - Реализация моделей классификации на основе LLM (ruRoberta, RuBERT) и нейросетевых архитектур (GRU, LSTM, CNN); - Проведение обучения и тестирования моделей на специализированном датасете; - Сравнительный анализ моделей по метрикам Accuracy, Precision, Recall, F1-score; - Разработка программного модуля для автоматической разметки текстов. Работа выполнена на основе открытого корпуса текстов, представленного в формате JSON. Проведена предобработка данных и формирование обучающих выборок. Были реализованы и протестированы модели классификации с использованием предобученных языковых моделей RuBERT и ruRoberta, а также нейросетевые архитектуры CNN, GRU и LSTM. Результаты показали, что трансформерные модели обеспечивают наивысшее качество классификации, в то время как MLP-архитектуры демонстрируют высокую скорость и низкую ресурсоемкость. В работе представлена система автоматической разметки, пригодная для расширения на иерархические и мультиметочные классификации. Использованные информационные технологии: Язык программирования Python, библиотеки NumPy, Pandas, Matplotlib, HuggingFace Transformers, scikit-learn, TensorFlow, Keras, spaCy, NLTK; форматы JSON и CSV; среда разработки PyCharm и Google Colab.

Thesis topic: “Research of NLP Methods in Automatic Content Annotation by Industry Taxonomies.” This thesis is dedicated to the research and comparative evaluation of natural language processing (NLP) methods for automatic classification of textual documents according to hierarchical industry taxonomies. Tasks addressed in the study: - Analysis of the subject domain and structure of industry taxonomies; - Collection and preprocessing of data in JSON and CSV formats; - Selection of programming tools and open-source libraries for implementation; - Development and training of classification models using LLM-based (RuBERT, ruRoberta) and MLP-based (GRU, LSTM, CNN) neural architectures; - Evaluation of model performance using classification metrics such as Accuracy, Precision, Recall, and F1-score; - Creation of a software module for practical automatic text annotation. The study is based on a custom dataset compiled from open JSON-format research documents, each annotated with topic codes. The dataset was preprocessed and transformed into unified CSV files to facilitate training and testing of classification models. The implemented models include both fine-tuned transformer-based language models and traditional neural architectures , enabling a fair comparison of performance, computational cost, and applicability to content annotation tasks. A software solution was developed in Python to enable practical usage of the trained models for taxonomy-based content classification. Information technologies used: Python programming language, PyCharm IDE, NumPy, Pandas, Matplotlib, HuggingFace Transformers, TensorFlow, Keras, scikit-learn, NLTK, spaCy, JSON.

Network User group Action
ILC SPbPU Local Network All
Read Print
Internet Authorized users SPbPU
Read Print
Internet Anonymous
  • СОДЕРЖАНИЕ
  • ВВЕДЕНИЕ
  • ГЛАВА 1 АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ
  • ГЛАВА 2 ОПИСАНИЕ DATASET
    • 2.1​Структура и содержание данных
    • 2.2​Преобразование данных для классификации
    • 2.3​Преимущества использования .json
    • 2.4​Применение данных для обучения моделей
    • 2.5​Проблемы и ограничения
    • 2.6​Заключение
  • ГЛАВА 3 ВЫБОР ПРОГРАММНОГО ИНСТРУМЕНТАРИЯ
    • 3.1​Выбор модулей и библиотек
    • 3.2​Выбор моделей
    • 3.3​Обоснование выбора
  • ГЛАВА 4 АНАЛИЗ АРХИТЕКТУР БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ И ДРУГИХ NLP МЕТОДОВ, ПРИМЕНИМЫХ К ЗАДАЧЕ АВТОРАЗМЕТКИ
    • 4.1.​Трансформеры
    • 4.2.​Рекуррентные нейронные сети LSTM и GRU
    • 4.3.​Сверточные нейронные сети (CNN)
    • 4.4.​Fine-tuning и обучение с учителем
    • 4.5.​Заключение
  • ГЛАВА 5 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ
    • 5.1.​Подготовка обучающего DataSet
    • 5.2.​Формирование DataSet без использования LLM
    • 5.3.​Формирование DataSet без использования LLM
    • 5.4.​ Обучение модели на подготовленных данных
      • 5.4.1.​ Обучение модели с использованием LLM
      • 5.4.2.​ Обучение модели без использования LLM
    • 5.5.​ Разработка программного модуля
    • 5.5.1.​ Модуль на основе LLM
    • 5.5.2.​ Модуль на основе классических нейросетей (GRU, CNN, LSTM)
  • ГЛАВА 6 СРАВНИТЕЛЬНЫЙ АНАЛИЗ РАБОТЫ МЕТОДОВ NLP В ЗАДАЧЕ АВТОМАТИЧЕСКОЙ РАЗМЕТКЕ КОНТЕНТА ПО ОТРАСЛЕВЫМ ТАКСОНОМИЯМ
    • 6.1.​Обзор протестированных методов
    • 6.2.​Сравнение по качеству классификации
    • 6.3.​Скорость обучения и ресурсоемкость
    • 6.4.​Заключение
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
  • ПРИЛОЖЕНИЕ А ФУНКЦИЯ ДООБУЧЕНИЯ МОДЕЛИ RoBERT trainer_llm_robert.py
  • ПРИЛОЖЕНИЕ Б ФУНКЦИЯ ДООБУЧЕНИЯ МОДЕЛИ BERT trainer_llm_bert.py
  • ПРИЛОЖЕНИЕ В ФУНКЦИЯ ОБУЧЕНИЯ МОДЕЛИ GRU trainer_gru.py
  • ПРИЛОЖЕНИЕ Г ФУНКЦИЯ ОБУЧЕНИЯ МОДЕЛИ LSTM trainer_lstm.py
  • ПРИЛОЖЕНИЕ Д ФУНКЦИЯ ОБУЧЕНИЯ МОДЕЛИ CNN trainer_cnn.py
  • ПРИЛОЖЕНИЕ Е ОБЩАЯ ФУНКЦИЯ ОБУЧЕНИЯ МОДЕЛЕЙ trainer.py
  • ПРИЛОЖЕНИЕ Ж ФУНКЦИЯ ПРЕДСКАЗАНИЯ РУБРИК ДЛЯ LLM МОДЕЛЕЙ predict_llm.py
  • ПРИЛОЖЕНИЕ З ФУНКЦИЯ ПРЕДСКАЗАНИЯ РУБРИК ДЛЯ NO-LLM МОДЕЛЕЙ predict_nollm.py
  • ПРИЛОЖЕНИЕ И

Access count: 0 
Last 30 days: 0

Detailed usage statistics