Разработка методики для суммаризации диалогов на основе большой языковой модели в условиях дефицита размеченных данных: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»

Пенясов, Дмитрий Евгеньевич

Детальная информация

Название	Разработка методики для суммаризации диалогов на основе большой языковой модели в условиях дефицита размеченных данных: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»
Авторы	Пенясов Дмитрий Евгеньевич
Научный руководитель	Туральчук Константин Анатольевич
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения	Санкт-Петербург, 2025
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	суммаризация диалогов ; большие языковые модели ; синтетические данные ; дефицит размеченных данных ; dialogue summarization ; large language models ; synthetic data ; limited labeled data
Тип документа	Выпускная квалификационная работа бакалавра
Тип файла	PDF
Язык	Русский
Уровень высшего образования	Бакалавриат
Код специальности ФГОС	09.03.03
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2025/vr/vr25-572
Права доступа	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно	Новинка
Ключ записи	ru\spstu\vkr\34487
Дата создания записи	17.03.2025

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

В данной работе объектом исследования выступает процесс автоматической аннотации диалогов на базе LLM. Предмет исследования - методы контекстного обучения и методы RAG для отбора демонстрационных примеров, повышающих качество суммаризации. Цель - разработка методики и фреймворка, позволяющего автоматически формировать обучающие наборы и аннотации с минимальными затратами на ручную разметку, а также оценка его эффективности относительно альтернативных решений. Методологическая основа работы - применение методов машинного обучения, контекстного обучения и механизмов RAG. В ходе исследования проанализированы возможности совместной интеграции контекстного обучения и RAG, проведён сравнительный анализ стратегий отбора демонстраций и реализованы эксперименты на англоязычных, русскоязычных и медицинских диалогах с использованием метрик ROUGE и BERTScore. Результаты подтвердили существенное улучшение качества резюмирования, особенно в узкоспециализированных сценариях, и показали, что предложенный подход может обходиться без масштабной ручной аннотации при формировании обучающих выборок. Разработанный подход применим для автоматической разметки диалогов в колл-центрах, медицинских и иных сервисах, облегчая аннотацию и повышая точность итоговых текстов. Выводы подтверждают, что использование RAG и контекстного обучения LLM повышает качество суммаризаций и упрощает формирование обучающих наборов. Предложенная методика и фреймворк могут быть внедрены в широкий спектр приложений, требующих точной и экономичной диалоговой суммаризации.

In this paper, the object of the study is the process of automatic annotation of dialogues based on LLM. The subject of the study is contextual learning methods and RAG methods for selecting demonstration examples that improve the quality of summarization. The goal is to develop a methodology and framework that allows for automatic formation of training sets and annotations with minimal costs for manual labeling, as well as to evaluate its effectiveness relative to alternative solutions. The methodological basis of the work is the use of machine learning methods, contextual learning and RAG mechanisms. During the study, the possibilities of joint integration of contextual learning and RAG were analyzed, a comparative analysis of demonstration selection strategies was carried out, and experiments were carried out on English-language, Russian-language and medical dialogues using the ROUGE and BERTScore metrics. The results confirmed a significant improvement in the quality of summarization, especially in highly specialized scenarios, and showed that the proposed approach can do without large-scale manual annotation when forming training samples. The developed approach is applicable for automatic dialog labeling in call centers, medical and other services, facilitating annotation and increasing the accuracy of the resulting texts. The findings confirm that the use of RAG and contextual LLM learning improves the quality of summaries and simplifies the formation of training sets. The proposed methodology and framework can be implemented in a wide range of applications requiring accurate and cost-effective dialog summaries.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Разработка методики для суммаризации диалогов на основе большой языковой модели в условиях дефицита размеченных данных
- Введение
- 1. Обзор подходов к построению аннотаций с помощью LLM
- 2. Проектирование и разработка методики и фреймворка для суммаризации
- 3. Практическая реализация
- 4. Экспериментальный анализ методики
- Заключение
- Список сокращений и условных обозначений
- Словарь терминов
- Список использованных источников
- Приложение 1. Основные модули фреймворка
- Приложение 2. Содержимое /scripts

Количество обращений: 3
За последние 30 дней: 3

Подробная статистика