Экспериментальное исследование стратегий адаптации потоковой NLP-модели к дрейфу текстовых данных: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии» = Experimental study of adaptation strategies for a streaming NLP model under text data drift

Малова, Анастасия Сергеевна

Details

Title	Экспериментальное исследование стратегий адаптации потоковой NLP-модели к дрейфу текстовых данных: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии» = Experimental study of adaptation strategies for a streaming NLP model under text data drift
Creators	Малова Анастасия Сергеевна
Scientific adviser	Пархоменко Владимир Андреевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2026
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	дрейф данных ; текстовые потоки ; nlp-модели ; адаптация моделей ; вычислительные затраты ; data drift ; text streams ; nlp models ; model adaptation ; computational cost
Document type	Bachelor graduation qualification work
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	09.03.03
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2026/vr/vr26-370
Rights	Доступ по паролю из сети Интернет (чтение)
Additionally	New arrival
Record key	ru\spstu\vkr\40217
Record create date	4/20/2026

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Целью работы является экспериментальное исследование влияния различных сценариев дрейфа данных на качество NLP-моделей, работающих с текстовым потоком, и сравнение стратегий их адаптации по метрикам качества и вычислительным затратам. Объект исследования — дрейф данных в потоковых задачах обработки естественного языка. Предмет исследования — стратегии адаптации моделей классификации текста к дрейфу данных и методы их экспериментальной оценки по метрикам качества и вычислительным затратам. Методология работы включает экспериментальное моделирование потоков данных со сценариями дрейфа и сравнительный анализ результатов по метрикам качества и вычислительным затратам. Получены количественные оценки деградации качества при дрейфе и проведена сравнительная оценка стратегий адаптации по метрикам качества и вычислительным затратам. Результаты могут быть использованы при проектировании и экспериментальной оценке потоковых NLP-моделей классификации текстов в нестационарных условиях. Выводы показывают, что эффект и стоимость адаптации зависят от типа и динамики дрейфа. В рамках работы разработан экспериментальный стенд на языке Python, позволяющий конфигурировать сценарии дрейфа и сравнивать стратегии адаптации, включая периодическое и триггерное переобучение. Разработка велась в среде Visual Studio Code с использованием системы контроля версий Git и сервиса GitHub. Предварительный анализ наборов данных выполнялся в среде JupyterLab.

The aim of this work is an experimental study of the impact of different data drift scenarios on the quality of NLP models operating on text streams, as well as a comparison of their adaptation strategies using quality metrics and computational cost. The object of the study is data drift in streaming natural language processing tasks. The subject of the study is adaptation strategies for text classification models under data drift and methods for their experimental evaluation using quality metrics and computational cost measures. The methodology of the work is based on experimental modeling of data streams with predefined drift scenarios and comparative analysis of the results using quality metrics and computational cost measures. Quantitative estimates of performance degradation under data drift were obtained, and adaptation strategies were comparatively evaluated using quality metrics and computational cost. The results can be used for designing and experimentally evaluating streaming NLP text classification models under non-stationary data. The conclusions indicate that both the benefit and the cost of adaptation depend on drift type and dynamics. In this study, an experimental testbed was implemented in Python, enabling configurable drift scenarios and the comparison of adaptation strategies, including periodic and trigger-based retraining. The development was carried out in Visual Studio Code using the Git version control system and GitHub. Preliminary dataset analysis was performed using JupyterLab.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Экспериментальное исследование стратегий адаптации потоковой NLP-модели к дрейфу текстовых данных
- Введение
- 1. Исследование методов и средств анализа дрейфа в текстовых данных
- 2. Проектирование стенда для сравнительного анализа
- 3. Реализация стенда для сравнительного анализа стратегий
- 4. Тестирование и верификция разработанного стенда
- 5. Экспериментальное исследование стратегий адаптации потоковой NLP-модели к дрейфу данных
- Заключение
- Список использованных источников
- Приложение 1 Результаты экспериментов
- Приложение 2 Конфигурации экспериментальных сценариев
- Приложение 3 Материалы тестирования программного стенда
- Приложение 4 Програмный код ключевых модулей экспериментального стенда

Access count: 0
Last 30 days: 0

Detailed usage statistics