Details
| Title | Экспериментальное исследование стратегий адаптации потоковой NLP-модели к дрейфу текстовых данных: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии» = Experimental study of adaptation strategies for a streaming NLP model under text data drift |
|---|---|
| Creators | Малова Анастасия Сергеевна |
| Scientific adviser | Пархоменко Владимир Андреевич |
| Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
| Imprint | Санкт-Петербург, 2026 |
| Collection | Выпускные квалификационные работы ; Общая коллекция |
| Subjects | дрейф данных ; текстовые потоки ; nlp-модели ; адаптация моделей ; вычислительные затраты ; data drift ; text streams ; nlp models ; model adaptation ; computational cost |
| Document type | Bachelor graduation qualification work |
| Language | Russian |
| Level of education | Bachelor |
| Speciality code (FGOS) | 09.03.03 |
| Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
| DOI | 10.18720/SPBPU/3/2026/vr/vr26-370 |
| Rights | Доступ по паролю из сети Интернет (чтение) |
| Additionally | New arrival |
| Record key | ru\spstu\vkr\40217 |
| Record create date | 4/20/2026 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
| Group | Anonymous |
|---|---|
| Network | Internet |
Целью работы является экспериментальное исследование влияния различных сценариев дрейфа данных на качество NLP-моделей, работающих с текстовым потоком, и сравнение стратегий их адаптации по метрикам качества и вычислительным затратам. Объект исследования — дрейф данных в потоковых задачах обработки естественного языка. Предмет исследования — стратегии адаптации моделей классификации текста к дрейфу данных и методы их экспериментальной оценки по метрикам качества и вычислительным затратам. Методология работы включает экспериментальное моделирование потоков данных со сценариями дрейфа и сравнительный анализ результатов по метрикам качества и вычислительным затратам. Получены количественные оценки деградации качества при дрейфе и проведена сравнительная оценка стратегий адаптации по метрикам качества и вычислительным затратам. Результаты могут быть использованы при проектировании и экспериментальной оценке потоковых NLP-моделей классификации текстов в нестационарных условиях. Выводы показывают, что эффект и стоимость адаптации зависят от типа и динамики дрейфа. В рамках работы разработан экспериментальный стенд на языке Python, позволяющий конфигурировать сценарии дрейфа и сравнивать стратегии адаптации, включая периодическое и триггерное переобучение. Разработка велась в среде Visual Studio Code с использованием системы контроля версий Git и сервиса GitHub. Предварительный анализ наборов данных выполнялся в среде JupyterLab.
The aim of this work is an experimental study of the impact of different data drift scenarios on the quality of NLP models operating on text streams, as well as a comparison of their adaptation strategies using quality metrics and computational cost. The object of the study is data drift in streaming natural language processing tasks. The subject of the study is adaptation strategies for text classification models under data drift and methods for their experimental evaluation using quality metrics and computational cost measures. The methodology of the work is based on experimental modeling of data streams with predefined drift scenarios and comparative analysis of the results using quality metrics and computational cost measures. Quantitative estimates of performance degradation under data drift were obtained, and adaptation strategies were comparatively evaluated using quality metrics and computational cost. The results can be used for designing and experimentally evaluating streaming NLP text classification models under non-stationary data. The conclusions indicate that both the benefit and the cost of adaptation depend on drift type and dynamics. In this study, an experimental testbed was implemented in Python, enabling configurable drift scenarios and the comparison of adaptation strategies, including periodic and trigger-based retraining. The development was carried out in Visual Studio Code using the Git version control system and GitHub. Preliminary dataset analysis was performed using JupyterLab.
| Network | User group | Action |
|---|---|---|
| ILC SPbPU Local Network | All |
|
| Internet | Authorized users SPbPU |
|
| Internet | Anonymous |
|
- Экспериментальное исследование стратегий адаптации потоковой NLP-модели к дрейфу текстовых данных
- Введение
- 1. Исследование методов и средств анализа дрейфа в текстовых данных
- 2. Проектирование стенда для сравнительного анализа
- 3. Реализация стенда для сравнительного анализа стратегий
- 4. Тестирование и верификция разработанного стенда
- 5. Экспериментальное исследование стратегий адаптации потоковой NLP-модели к дрейфу данных
- Заключение
- Список использованных источников
- Приложение 1 Результаты экспериментов
- Приложение 2 Конфигурации экспериментальных сценариев
- Приложение 3 Материалы тестирования программного стенда
- Приложение 4 Програмный код ключевых модулей экспериментального стенда
Access count: 0
Last 30 days: 0