Экспериментальное исследование стратегий адаптации потоковой NLP-модели к дрейфу текстовых данных: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии» = Experimental study of adaptation strategies for a streaming NLP model under text data drift

Малова, Анастасия Сергеевна

Детальная информация

Название	Экспериментальное исследование стратегий адаптации потоковой NLP-модели к дрейфу текстовых данных: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии» = Experimental study of adaptation strategies for a streaming NLP model under text data drift
Авторы	Малова Анастасия Сергеевна
Научный руководитель	Пархоменко Владимир Андреевич
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения	Санкт-Петербург, 2026
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	дрейф данных ; текстовые потоки ; nlp-модели ; адаптация моделей ; вычислительные затраты ; data drift ; text streams ; nlp models ; model adaptation ; computational cost
Тип документа	Выпускная квалификационная работа бакалавра
Язык	Русский
Уровень высшего образования	Бакалавриат
Код специальности ФГОС	09.03.03
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2026/vr/vr26-370
Права доступа	Доступ по паролю из сети Интернет (чтение)
Дополнительно	Новинка
Ключ записи	ru\spstu\vkr\40217
Дата создания записи	20.04.2026

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Целью работы является экспериментальное исследование влияния различных сценариев дрейфа данных на качество NLP-моделей, работающих с текстовым потоком, и сравнение стратегий их адаптации по метрикам качества и вычислительным затратам. Объект исследования — дрейф данных в потоковых задачах обработки естественного языка. Предмет исследования — стратегии адаптации моделей классификации текста к дрейфу данных и методы их экспериментальной оценки по метрикам качества и вычислительным затратам. Методология работы включает экспериментальное моделирование потоков данных со сценариями дрейфа и сравнительный анализ результатов по метрикам качества и вычислительным затратам. Получены количественные оценки деградации качества при дрейфе и проведена сравнительная оценка стратегий адаптации по метрикам качества и вычислительным затратам. Результаты могут быть использованы при проектировании и экспериментальной оценке потоковых NLP-моделей классификации текстов в нестационарных условиях. Выводы показывают, что эффект и стоимость адаптации зависят от типа и динамики дрейфа. В рамках работы разработан экспериментальный стенд на языке Python, позволяющий конфигурировать сценарии дрейфа и сравнивать стратегии адаптации, включая периодическое и триггерное переобучение. Разработка велась в среде Visual Studio Code с использованием системы контроля версий Git и сервиса GitHub. Предварительный анализ наборов данных выполнялся в среде JupyterLab.

The aim of this work is an experimental study of the impact of different data drift scenarios on the quality of NLP models operating on text streams, as well as a comparison of their adaptation strategies using quality metrics and computational cost. The object of the study is data drift in streaming natural language processing tasks. The subject of the study is adaptation strategies for text classification models under data drift and methods for their experimental evaluation using quality metrics and computational cost measures. The methodology of the work is based on experimental modeling of data streams with predefined drift scenarios and comparative analysis of the results using quality metrics and computational cost measures. Quantitative estimates of performance degradation under data drift were obtained, and adaptation strategies were comparatively evaluated using quality metrics and computational cost. The results can be used for designing and experimentally evaluating streaming NLP text classification models under non-stationary data. The conclusions indicate that both the benefit and the cost of adaptation depend on drift type and dynamics. In this study, an experimental testbed was implemented in Python, enabling configurable drift scenarios and the comparison of adaptation strategies, including periodic and trigger-based retraining. The development was carried out in Visual Studio Code using the Git version control system and GitHub. Preliminary dataset analysis was performed using JupyterLab.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Экспериментальное исследование стратегий адаптации потоковой NLP-модели к дрейфу текстовых данных
- Введение
- 1. Исследование методов и средств анализа дрейфа в текстовых данных
- 2. Проектирование стенда для сравнительного анализа
- 3. Реализация стенда для сравнительного анализа стратегий
- 4. Тестирование и верификция разработанного стенда
- 5. Экспериментальное исследование стратегий адаптации потоковой NLP-модели к дрейфу данных
- Заключение
- Список использованных источников
- Приложение 1 Результаты экспериментов
- Приложение 2 Конфигурации экспериментальных сценариев
- Приложение 3 Материалы тестирования программного стенда
- Приложение 4 Програмный код ключевых модулей экспериментального стенда

Количество обращений: 0
За последние 30 дней: 0

Подробная статистика