Details

Title Optimization of Information Retrieval Algorithms for Educational Text Corpora in the Context of Rag Systems: выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)»
Creators Зелёный Александр Витальевич
Scientific adviser Дмитриев Александр Владиславович
Organization Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects information retrieval ; rag ; retrieval-augmented generation ; educational texts ; информационный поиск ; расширенная поисковая генерация ; образовательные тексты
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 45.04.04
Speciality group (FGOS) 450000 - Языкознание и литературоведение
DOI 10.18720/SPBPU/3/2025/vr/vr25-3917
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\37596
Record create date 9/19/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

The work investigates the role and optimization of information retrieval (IR) methods within retrieval-augmented generation (RAG) frameworks applied to specialized educational corpora. The study aims to identify the optimal information retrieval strategies which yield the most accurate result for educational corpora. The research begins with a comprehensive analysis of academic literature, covering both classical and modern embedding-based retrieval paradigms. Particular attention is given to linguistic and structural features of educational texts. To test theoretical insights, a corpus of educational texts and an evaluation dataset were compiled. A modular IR system was developed, incorporating six retrieval algorithms – lexical, semantic and hybrid approaches in two variations (single-pass and query-rewriting enhanced). Experimental evaluation demonstrated that a hybrid algorithm combining BM25 and Danse Passage Retrieval (DPR) achieved the highest performance across multiple IR metrics, including Mean Average Precision (MAP) and Mean Reciprocal Rank (MRR). The results highlighted the term-specific nature of educational texts and confirmed the advantage of lexical retrieval strategy. Furthermore, the study explored the impact of algorithm configuration, such as weighting distribution for the component of hybrid retrievers. The findings of the study support the importance of tailored IR design for educational RAG applications and offer guidelines for constructing an effective IR system from the educational domain.

Данная работа исследует роль и оптимизацию информационного поиска (ИП) в рамках систем расширенной поисковой генерации (RAG), применяемых к специализированным образовательным корпусам текстов. Целью исследования является выявление оптимальных стратегий информационного поиска, обеспечивающих наибольшую точность при работе с образовательными корпусами. Исследование включает всесторонний анализ научной литературы, охватывающий как классические, так и современные парадигмы ИП на основе эмбеддингов. Особое внимание уделяется языковым и структурным особенностям образовательных текстов. Для проверки теоретических положений был создан корпус образовательных текстов и сформирован набор данных для оценки работы алгоритмов ИП. Также была разработана модульная система информационного поиска, включающая шесть алгоритмов – лексические, семантические, и гибридные подходы в двух вариантах: базовом и с предварительным перефразированием запроса. Экспериментальная оценка показала, что гибридный алгоритм, сочетающий BM25 и Dense Passage Retrieval (DPR), продемонстрировал наивысшие показатели по несколько метрикам ИП, включая Mean Average Precision (MAP) и Mean Reciprocal Rank (MRR). Результаты подчеркнули терминологическую специфику образовательных текстов и подтвердили преимущество лексических стратегий поиска. Кроме того, в исследовании было рассмотрено влияние конфигурации гибридного алгоритма, в частности распределения весов между лексическим и семантическим компонентами. Результаты исследования подтверждают важность адаптированного дизайна ИП для образовательных RAG систем и предлагают рекомендации по построению эффективной системы ИП в области образования.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous

Access count: 1 
Last 30 days: 1

Detailed usage statistics