Разработка методики для суммаризации диалогов на основе большой языковой модели в условиях дефицита размеченных данных: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»

Пенясов, Дмитрий Евгеньевич

Details

Title	Разработка методики для суммаризации диалогов на основе большой языковой модели в условиях дефицита размеченных данных: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»
Creators	Пенясов Дмитрий Евгеньевич
Scientific adviser	Туральчук Константин Анатольевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2025
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	суммаризация диалогов ; большие языковые модели ; синтетические данные ; дефицит размеченных данных ; dialogue summarization ; large language models ; synthetic data ; limited labeled data
Document type	Bachelor graduation qualification work
File type	PDF
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	09.03.03
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2025/vr/vr25-572
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	ru\spstu\vkr\34487
Record create date	3/17/2025

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

В данной работе объектом исследования выступает процесс автоматической аннотации диалогов на базе LLM. Предмет исследования - методы контекстного обучения и методы RAG для отбора демонстрационных примеров, повышающих качество суммаризации. Цель - разработка методики и фреймворка, позволяющего автоматически формировать обучающие наборы и аннотации с минимальными затратами на ручную разметку, а также оценка его эффективности относительно альтернативных решений. Методологическая основа работы - применение методов машинного обучения, контекстного обучения и механизмов RAG. В ходе исследования проанализированы возможности совместной интеграции контекстного обучения и RAG, проведён сравнительный анализ стратегий отбора демонстраций и реализованы эксперименты на англоязычных, русскоязычных и медицинских диалогах с использованием метрик ROUGE и BERTScore. Результаты подтвердили существенное улучшение качества резюмирования, особенно в узкоспециализированных сценариях, и показали, что предложенный подход может обходиться без масштабной ручной аннотации при формировании обучающих выборок. Разработанный подход применим для автоматической разметки диалогов в колл-центрах, медицинских и иных сервисах, облегчая аннотацию и повышая точность итоговых текстов. Выводы подтверждают, что использование RAG и контекстного обучения LLM повышает качество суммаризаций и упрощает формирование обучающих наборов. Предложенная методика и фреймворк могут быть внедрены в широкий спектр приложений, требующих точной и экономичной диалоговой суммаризации.

In this paper, the object of the study is the process of automatic annotation of dialogues based on LLM. The subject of the study is contextual learning methods and RAG methods for selecting demonstration examples that improve the quality of summarization. The goal is to develop a methodology and framework that allows for automatic formation of training sets and annotations with minimal costs for manual labeling, as well as to evaluate its effectiveness relative to alternative solutions. The methodological basis of the work is the use of machine learning methods, contextual learning and RAG mechanisms. During the study, the possibilities of joint integration of contextual learning and RAG were analyzed, a comparative analysis of demonstration selection strategies was carried out, and experiments were carried out on English-language, Russian-language and medical dialogues using the ROUGE and BERTScore metrics. The results confirmed a significant improvement in the quality of summarization, especially in highly specialized scenarios, and showed that the proposed approach can do without large-scale manual annotation when forming training samples. The developed approach is applicable for automatic dialog labeling in call centers, medical and other services, facilitating annotation and increasing the accuracy of the resulting texts. The findings confirm that the use of RAG and contextual LLM learning improves the quality of summaries and simplifies the formation of training sets. The proposed methodology and framework can be implemented in a wide range of applications requiring accurate and cost-effective dialog summaries.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Разработка методики для суммаризации диалогов на основе большой языковой модели в условиях дефицита размеченных данных
- Введение
- 1. Обзор подходов к построению аннотаций с помощью LLM
- 2. Проектирование и разработка методики и фреймворка для суммаризации
- 3. Практическая реализация
- 4. Экспериментальный анализ методики
- Заключение
- Список сокращений и условных обозначений
- Словарь терминов
- Список использованных источников
- Приложение 1. Основные модули фреймворка
- Приложение 2. Содержимое /scripts

Access count: 3
Last 30 days: 3

Detailed usage statistics