Детальная информация

Название Использование языковой модели для генерации синтетических данных для дообучения модели рекомендательной системы площадки по продаже туров для путешествий: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Авторы Сырбу Григорий Витальевич
Научный руководитель Дробинцев Дмитрий Федорович
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения Санкт-Петербург, 2025
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика языковая модель ; синтетические данные ; рекомендательная система ; туризм ; language model ; synthetic data ; recommendation system ; tourism
Тип документа Выпускная квалификационная работа бакалавра
Тип файла PDF
Язык Русский
Уровень высшего образования Бакалавриат
Код специальности ФГОС 09.03.04
Группа специальностей ФГОС 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-956
Права доступа Доступ по паролю из сети Интернет (чтение, печать)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\35771
Дата создания записи 30.07.2025

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Данная работа посвящена разработке метода генерации синтетических отзывов о турах с использованием языковой модели T-Lite-It-1.0. Основная цель исследования — преодоление ограничений, связанных с недостатком реальных данных для обучения рекомендательной системы. В работе предложен подход к контролируемой генерации отзывов с заданными параметрами эмоциональности и критичности, что позволяет создавать сбалансированные и релевантные обучающие выборки. Исследование включает настройку среды (Hugging Face, Transformers, PyTorch, LmStudio), оптимизацию промптов для управления генерацией и валидацию данных с помощью BERT-моделей (rubert-tiny). Результаты демонстрируют значительное улучшение качества синтетических данных по сравнению с автономной генерацией: увеличение информационной плотности на 217%, эмоциональной вариативности на 142%, а также достижение корреляции между заданной и фактической тональностью на уровне 82.4%. Разработанная система интегрирована в гибридную микросервисную архитектуру (Java Spring + Python) с использованием PostgreSQL для хранения данных. Практическая значимость работы заключается в возможности применения синтетических данных для дообучения рекомендательных систем в условиях ограниченного доступа к реальным отзывам.

This work is devoted to the development of a method for generating synthetic reviews of tours using the T-Lite-It-1.0 language model. The main purpose of the study is to overcome the limitations associated with the lack of real data for training the recommendation system. The paper proposes an approach to the controlled generation of feedback with specified parameters of emotionality and criticality, which allows you to create balanced and relevant training samples. The research includes setting up the environment (Hugging Face, Transformers, PyTorch, LmStudio), optimizing prompta for generation control, and validating data using BERT-tiny models. The results demonstrate a significant improvement in the quality of synthetic data compared to offline generation: an increase in information density by 217%, emotional variability by 142%, and the achievement of a correlation between the specified and actual tonality at the level of 82.4%. The developed system is integrated into a hybrid microservice architecture (Java Spring + Python) using PostgreSQL for data storage. The practical significance of the work lies in the possibility of using synthetic data to train recommendation systems in conditions of limited access to real reviews.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать
Интернет Авторизованные пользователи СПбПУ
Прочитать Печать
Интернет Анонимные пользователи

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика