Details
Title | Использование языковой модели для генерации синтетических данных для дообучения модели рекомендательной системы площадки по продаже туров для путешествий: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта» |
---|---|
Creators | Сырбу Григорий Витальевич |
Scientific adviser | Дробинцев Дмитрий Федорович |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | языковая модель ; синтетические данные ; рекомендательная система ; туризм ; language model ; synthetic data ; recommendation system ; tourism |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 09.03.04 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-956 |
Rights | Доступ по паролю из сети Интернет (чтение, печать) |
Additionally | New arrival |
Record key | ru\spstu\vkr\35771 |
Record create date | 7/30/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Данная работа посвящена разработке метода генерации синтетических отзывов о турах с использованием языковой модели T-Lite-It-1.0. Основная цель исследования — преодоление ограничений, связанных с недостатком реальных данных для обучения рекомендательной системы. В работе предложен подход к контролируемой генерации отзывов с заданными параметрами эмоциональности и критичности, что позволяет создавать сбалансированные и релевантные обучающие выборки. Исследование включает настройку среды (Hugging Face, Transformers, PyTorch, LmStudio), оптимизацию промптов для управления генерацией и валидацию данных с помощью BERT-моделей (rubert-tiny). Результаты демонстрируют значительное улучшение качества синтетических данных по сравнению с автономной генерацией: увеличение информационной плотности на 217%, эмоциональной вариативности на 142%, а также достижение корреляции между заданной и фактической тональностью на уровне 82.4%. Разработанная система интегрирована в гибридную микросервисную архитектуру (Java Spring + Python) с использованием PostgreSQL для хранения данных. Практическая значимость работы заключается в возможности применения синтетических данных для дообучения рекомендательных систем в условиях ограниченного доступа к реальным отзывам.
This work is devoted to the development of a method for generating synthetic reviews of tours using the T-Lite-It-1.0 language model. The main purpose of the study is to overcome the limitations associated with the lack of real data for training the recommendation system. The paper proposes an approach to the controlled generation of feedback with specified parameters of emotionality and criticality, which allows you to create balanced and relevant training samples. The research includes setting up the environment (Hugging Face, Transformers, PyTorch, LmStudio), optimizing prompta for generation control, and validating data using BERT-tiny models. The results demonstrate a significant improvement in the quality of synthetic data compared to offline generation: an increase in information density by 217%, emotional variability by 142%, and the achievement of a correlation between the specified and actual tonality at the level of 82.4%. The developed system is integrated into a hybrid microservice architecture (Java Spring + Python) using PostgreSQL for data storage. The practical significance of the work lies in the possibility of using synthetic data to train recommendation systems in conditions of limited access to real reviews.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 0
Last 30 days: 0