Детальная информация

Название Optimization of Information Retrieval Algorithms for Educational Text Corpora in the Context of Rag Systems: выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)»
Авторы Зелёный Александр Витальевич
Научный руководитель Дмитриев Александр Владиславович
Организация Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт
Выходные сведения Санкт-Петербург, 2025
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика information retrieval ; rag ; retrieval-augmented generation ; educational texts ; информационный поиск ; расширенная поисковая генерация ; образовательные тексты
Тип документа Выпускная квалификационная работа магистра
Тип файла PDF
Язык Русский
Уровень высшего образования Магистратура
Код специальности ФГОС 45.04.04
Группа специальностей ФГОС 450000 - Языкознание и литературоведение
DOI 10.18720/SPBPU/3/2025/vr/vr25-3917
Права доступа Доступ по паролю из сети Интернет (чтение)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\37596
Дата создания записи 19.09.2025

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

The work investigates the role and optimization of information retrieval (IR) methods within retrieval-augmented generation (RAG) frameworks applied to specialized educational corpora. The study aims to identify the optimal information retrieval strategies which yield the most accurate result for educational corpora. The research begins with a comprehensive analysis of academic literature, covering both classical and modern embedding-based retrieval paradigms. Particular attention is given to linguistic and structural features of educational texts. To test theoretical insights, a corpus of educational texts and an evaluation dataset were compiled. A modular IR system was developed, incorporating six retrieval algorithms – lexical, semantic and hybrid approaches in two variations (single-pass and query-rewriting enhanced). Experimental evaluation demonstrated that a hybrid algorithm combining BM25 and Danse Passage Retrieval (DPR) achieved the highest performance across multiple IR metrics, including Mean Average Precision (MAP) and Mean Reciprocal Rank (MRR). The results highlighted the term-specific nature of educational texts and confirmed the advantage of lexical retrieval strategy. Furthermore, the study explored the impact of algorithm configuration, such as weighting distribution for the component of hybrid retrievers. The findings of the study support the importance of tailored IR design for educational RAG applications and offer guidelines for constructing an effective IR system from the educational domain.

Данная работа исследует роль и оптимизацию информационного поиска (ИП) в рамках систем расширенной поисковой генерации (RAG), применяемых к специализированным образовательным корпусам текстов. Целью исследования является выявление оптимальных стратегий информационного поиска, обеспечивающих наибольшую точность при работе с образовательными корпусами. Исследование включает всесторонний анализ научной литературы, охватывающий как классические, так и современные парадигмы ИП на основе эмбеддингов. Особое внимание уделяется языковым и структурным особенностям образовательных текстов. Для проверки теоретических положений был создан корпус образовательных текстов и сформирован набор данных для оценки работы алгоритмов ИП. Также была разработана модульная система информационного поиска, включающая шесть алгоритмов – лексические, семантические, и гибридные подходы в двух вариантах: базовом и с предварительным перефразированием запроса. Экспериментальная оценка показала, что гибридный алгоритм, сочетающий BM25 и Dense Passage Retrieval (DPR), продемонстрировал наивысшие показатели по несколько метрикам ИП, включая Mean Average Precision (MAP) и Mean Reciprocal Rank (MRR). Результаты подчеркнули терминологическую специфику образовательных текстов и подтвердили преимущество лексических стратегий поиска. Кроме того, в исследовании было рассмотрено влияние конфигурации гибридного алгоритма, в частности распределения весов между лексическим и семантическим компонентами. Результаты исследования подтверждают важность адаптированного дизайна ИП для образовательных RAG систем и предлагают рекомендации по построению эффективной системы ИП в области образования.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать
Интернет Авторизованные пользователи СПбПУ
Прочитать
Интернет Анонимные пользователи

Количество обращений: 1 
За последние 30 дней: 1

Подробная статистика