Details
Title | Разработка методики для суммаризации диалогов на основе большой языковой модели в условиях дефицита размеченных данных: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии» |
---|---|
Creators | Пенясов Дмитрий Евгеньевич |
Scientific adviser | Туральчук Константин Анатольевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | суммаризация диалогов ; большие языковые модели ; синтетические данные ; дефицит размеченных данных ; dialogue summarization ; large language models ; synthetic data ; limited labeled data |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 09.03.03 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-572 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Additionally | New arrival |
Record key | ru\spstu\vkr\34487 |
Record create date | 3/17/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
В данной работе объектом исследования выступает процесс автоматической аннотации диалогов на базе LLM. Предмет исследования - методы контекстного обучения и методы RAG для отбора демонстрационных примеров, повышающих качество суммаризации. Цель - разработка методики и фреймворка, позволяющего автоматически формировать обучающие наборы и аннотации с минимальными затратами на ручную разметку, а также оценка его эффективности относительно альтернативных решений. Методологическая основа работы - применение методов машинного обучения, контекстного обучения и механизмов RAG. В ходе исследования проанализированы возможности совместной интеграции контекстного обучения и RAG, проведён сравнительный анализ стратегий отбора демонстраций и реализованы эксперименты на англоязычных, русскоязычных и медицинских диалогах с использованием метрик ROUGE и BERTScore. Результаты подтвердили существенное улучшение качества резюмирования, особенно в узкоспециализированных сценариях, и показали, что предложенный подход может обходиться без масштабной ручной аннотации при формировании обучающих выборок. Разработанный подход применим для автоматической разметки диалогов в колл-центрах, медицинских и иных сервисах, облегчая аннотацию и повышая точность итоговых текстов. Выводы подтверждают, что использование RAG и контекстного обучения LLM повышает качество суммаризаций и упрощает формирование обучающих наборов. Предложенная методика и фреймворк могут быть внедрены в широкий спектр приложений, требующих точной и экономичной диалоговой суммаризации.
In this paper, the object of the study is the process of automatic annotation of dialogues based on LLM. The subject of the study is contextual learning methods and RAG methods for selecting demonstration examples that improve the quality of summarization. The goal is to develop a methodology and framework that allows for automatic formation of training sets and annotations with minimal costs for manual labeling, as well as to evaluate its effectiveness relative to alternative solutions. The methodological basis of the work is the use of machine learning methods, contextual learning and RAG mechanisms. During the study, the possibilities of joint integration of contextual learning and RAG were analyzed, a comparative analysis of demonstration selection strategies was carried out, and experiments were carried out on English-language, Russian-language and medical dialogues using the ROUGE and BERTScore metrics. The results confirmed a significant improvement in the quality of summarization, especially in highly specialized scenarios, and showed that the proposed approach can do without large-scale manual annotation when forming training samples. The developed approach is applicable for automatic dialog labeling in call centers, medical and other services, facilitating annotation and increasing the accuracy of the resulting texts. The findings confirm that the use of RAG and contextual LLM learning improves the quality of summaries and simplifies the formation of training sets. The proposed methodology and framework can be implemented in a wide range of applications requiring accurate and cost-effective dialog summaries.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- Разработка методики для суммаризации диалогов на основе большой языковой модели в условиях дефицита размеченных данных
- Введение
- 1. Обзор подходов к построению аннотаций с помощью LLM
- 2. Проектирование и разработка методики и фреймворка для суммаризации
- 3. Практическая реализация
- 4. Экспериментальный анализ методики
- Заключение
- Список сокращений и условных обозначений
- Словарь терминов
- Список использованных источников
- Приложение 1. Основные модули фреймворка
- Приложение 2. Содержимое /scripts
Access count: 3
Last 30 days: 3