Details

Title Распознавание иронической тональности русскоязычных текстов с применением моделей машинного обучения: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Recognition of Ironic Sentiment in Russian-Language Texts Using Machine Learning Models
Creators Погребняк Кристина Витальевна
Scientific adviser Косторнова Александра Сергеевна
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2026
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects ирония ; анализ тональности текста ; распознавание иронии ; обработка естественного языка ; машинное обучение ; rubert ; трансформер ; python ; irony ; text sentiment analysis ; irony detection ; natural language processing ; machine learning ; transformer
Document type Bachelor graduation qualification work
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.02
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2026/vr/vr26-569
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\40364
Record create date 4/20/2026

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Работа посвящена исследованию подходов к автоматическому анализу тональности русскоязычных текстов с акцентом на задаче распознавания иронии и созданию программной системы, способной по кратким текстовым высказываниям определять наличие ироничной тональности. Основное внимание уделено особенностям иронии как объекта автоматического анализа, обзору существующих методов и моделей, выбору архитектуры на базе трансформерных языковых моделей и практической реализации локального приложения, доступного для использования на обычном персональном компьютере без подключения к внешним сервисам. В ходе исследования решались следующие задачи: анализ феномена иронии и существующих подходов к анализу тональности текста в русскоязычном сегменте; изучение и оценка возможностей классических алгоритмов машинного обучения и нейросетевых моделей (в том числе трансформеров) применительно к задаче распознавания иронии; обзор доступных датасетов, формализация требований к обучающему корпусу и обоснование необходимости формирования собственного набора данных; проектирование архитектуры программной системы с выделением модулей ввода, предобработки, токенизации, классификации и вывода результатов; разработка и реализация программного обеспечения на языке Python с использованием модели RuBERT для бинарной классификации текстов по признаку «ирония / не ирония»; проведение экспериментальной проверки работы системы на модельном корпусе и оценка качества классификации через стандартные метрики. Работа выполнена с использованием открытых инструментов и библиотек экосистемы Python, что позволило реализовать полный цикл обработки данных: от формирования и ручной разметки обучающего датасета до обучения модели, тестирования и графической визуализации результатов без применения коммерческих программных продуктов. В исследовании применены методы машинного обучения для задач текстовой классификации, элементы анализа временных и текстовых данных, а также средства визуализации и генерации отчётной информации по результатам обучения и тестирования. Результатом работы стало создание программного комплекса, включающего модуль ручного сбора и разметки обучающих примеров, подсистему обучения и дообучения модели RuBERT на специализированном корпусе ироничных и неироничных высказываний, а также оконное приложение, обеспечивающее пользователю возможность ввода произвольного текста и получения результата классификации в виде метки «Ирония» / «Не ирония» с указанием уровня уверенности. Разработанное решение демонстрирует работоспособность подхода к распознаванию иронии на основе трансформерной архитектуры, может быть использовано в учебных и исследовательских целях как прототип системы анализа тональности и служить основой для дальнейшего развития в сторону интеграции с системами мониторинга социальных медиа, анализа отзывов и интеллектуальной модерации контента.

This work is devoted to the study of approaches to the automatic analysis of the sentiment of Russian-language texts with an emphasis on the task of irony detection and the creation of a software system capable of determining the presence of ironic sentiment in short text statements. The main attention is paid to the features of irony as an object of automatic analysis, a review of existing methods and models, the choice of an architecture based on transformer language models, and the practical implementation of a local application available for use on a regular personal computer without connecting to external services. During the research, the following tasks were solved: analysis of the phenomenon of irony and existing approaches to text sentiment analysis in the Russian-language segment; study and evaluation of the capabilities of classical machine learning algorithms and neural network models (including transformers) applied to the task of irony detection; review of available datasets, formalization of requirements for the training corpus and justification of the need to create a custom dataset; design of the software system architecture with the allocation of input, preprocessing, tokenization, classification, and output modules; development and implementation of software in Python using the RuBERT model for binary classification of texts based on the "irony / non-irony" feature; experimental verification of the systems operation on a model corpus and evaluation of the classification quality through standard metrics. The work was performed using open-source tools and libraries of the Python ecosystem, which allowed for the implementation of a complete data processing cycle: from the formation and manual annotation of the training dataset to model training, testing, and graphical visualization of the results without the use of commercial software products. The study employed machine learning methods for text classification tasks, elements of time series and text data analysis, as well as tools for visualizing and generating reporting information based on the results of training and testing. The result of the work was the creation of a software package that includes a module for manual collection and labeling of training examples, a subsystem for training and retraining the RuBERT model on a specialized corpus of ironic and non-ironic statements, and a desktop application that allows the user to enter arbitrary text and receive a classification result in the form of a "Irony" / "Not irony" label with an indication of the confidence level. The developed solution demonstrates the viability of the approach to irony recognition based on the transformer architecture, can be used for educational and research purposes as a prototype of a sentiment analysis system, and serve as a basis for further development towards integration with social media monitoring systems, review analysis, and intelligent content moderation.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous
Access count: 0
Last 30 days: 0
Detailed usage statistics