Details

Title Использование языковой модели для генерации синтетических данных для дообучения модели рекомендательной системы площадки по продаже туров для путешествий: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators Сырбу Григорий Витальевич
Scientific adviser Дробинцев Дмитрий Федорович
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects языковая модель ; синтетические данные ; рекомендательная система ; туризм ; language model ; synthetic data ; recommendation system ; tourism
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.04
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-956
Rights Доступ по паролю из сети Интернет (чтение, печать)
Additionally New arrival
Record key ru\spstu\vkr\35771
Record create date 7/30/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Данная работа посвящена разработке метода генерации синтетических отзывов о турах с использованием языковой модели T-Lite-It-1.0. Основная цель исследования — преодоление ограничений, связанных с недостатком реальных данных для обучения рекомендательной системы. В работе предложен подход к контролируемой генерации отзывов с заданными параметрами эмоциональности и критичности, что позволяет создавать сбалансированные и релевантные обучающие выборки. Исследование включает настройку среды (Hugging Face, Transformers, PyTorch, LmStudio), оптимизацию промптов для управления генерацией и валидацию данных с помощью BERT-моделей (rubert-tiny). Результаты демонстрируют значительное улучшение качества синтетических данных по сравнению с автономной генерацией: увеличение информационной плотности на 217%, эмоциональной вариативности на 142%, а также достижение корреляции между заданной и фактической тональностью на уровне 82.4%. Разработанная система интегрирована в гибридную микросервисную архитектуру (Java Spring + Python) с использованием PostgreSQL для хранения данных. Практическая значимость работы заключается в возможности применения синтетических данных для дообучения рекомендательных систем в условиях ограниченного доступа к реальным отзывам.

This work is devoted to the development of a method for generating synthetic reviews of tours using the T-Lite-It-1.0 language model. The main purpose of the study is to overcome the limitations associated with the lack of real data for training the recommendation system. The paper proposes an approach to the controlled generation of feedback with specified parameters of emotionality and criticality, which allows you to create balanced and relevant training samples. The research includes setting up the environment (Hugging Face, Transformers, PyTorch, LmStudio), optimizing prompta for generation control, and validating data using BERT-tiny models. The results demonstrate a significant improvement in the quality of synthetic data compared to offline generation: an increase in information density by 217%, emotional variability by 142%, and the achievement of a correlation between the specified and actual tonality at the level of 82.4%. The developed system is integrated into a hybrid microservice architecture (Java Spring + Python) using PostgreSQL for data storage. The practical significance of the work lies in the possibility of using synthetic data to train recommendation systems in conditions of limited access to real reviews.

Network User group Action
ILC SPbPU Local Network All
Read Print
Internet Authorized users SPbPU
Read Print
Internet Anonymous

Access count: 0 
Last 30 days: 0

Detailed usage statistics