Детальная информация

Название Поиск и индексация документов с использованием мультимодального RAG: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Авторы Поволяев Андрей Дмитриевич
Научный руководитель Петров Александр Владимирович
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения Санкт-Петербург, 2025
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика архитектура rag ; мультимодальность ; векторный поиск ; большие языковые модели ; python ; colpali ; qdrant ; rag architecture ; multimodality ; vector search ; large language models
Тип документа Выпускная квалификационная работа бакалавра
Тип файла PDF
Язык Русский
Уровень высшего образования Бакалавриат
Код специальности ФГОС 09.03.04
Группа специальностей ФГОС 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-1153
Права доступа Доступ по паролю из сети Интернет (чтение, печать)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\35788
Дата создания записи 30.07.2025

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Данная работа посвящена созданию пайплайна для эффективного поиска и хранения документов в векторной базе данных с использованием архитектуры генерации, дополненный поиском (RAG). В ходе работы был проведен анализ существующих решений, рассмотрены их основные преимущества и недостатки. Выяснилось, что некоторые из решений не являются мультимодальными, и, что самое главное, ни одно из них не гарантирует конфиденциальность данных и возможность работать с единой БД. В процессе работы была реализована система, которая позволяет загружать документы, осуществлять быстрый поиск и получать релевантный ответ на запрос пользователя. Система была развернута с использованием контейнеризации на базе Docker. Было проведено тестирование и оценка с помощью метрик, предоставляемых фреймворком Deepeval. Также было произведено сравнение разработанной системы с ведущей большой мультимодальной языковой моделью – GPT-4o.

This work is devoted to creating a pipeline for efficient document search and storage in a vector database using a architecture retrieval-augmented-generation (RAG). In the course of the work, an analysis of existing solutions was carried out, their main advantages and disadvantages were considered. It turned out that some of the solutions are not multimodal, and, most importantly, none of them guarantees data confidentiality and the ability to work with a single database. In the process, a system was implemented that allows to upload documents, perform a quick search and receive a relevant response to a users request. The system was deployed using Docker-based containerization. Testing and evaluation were conducted using metrics provided by the Deepeval framework. The developed system was also compared with the leading large multimodal language model, GPT-4o.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать
Интернет Авторизованные пользователи СПбПУ
Прочитать Печать
Интернет Анонимные пользователи
  • ВВЕДЕНИЕ
  • ГЛАВА 1. ПОСТАНОВКА ЗАДАЧИ И ОБОСНОВАНИЕ АКТУАЛЬНОСТИ РАБОТЫ
    • 1.1 Постановка задачи
    • 1.2 Обоснование актуальности работы
  • ГЛАВА 2. ОБЗОР СУЩЕСТВУЮЩИХ ПОДХОДОВ И РЕШЕНИЙ
    • 2.1 Анализ существующих теоретических подходов
    • 2.2 Анализ существующих решений
  • ГЛАВА 3. ТЕХНИЧЕСКОЕ ПРОЕКТИРОВАНИЕ СИСТЕМЫ
    • 3.1 Функциональные требования к системе
    • 3.2 Нефункциональные требования к системе
    • 3.3 Обоснование выбора технологий и средств разработки
    • 3.4 Обоснование архитектурных решений
  • ГЛАВА 4. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ И ТЕСТИРОВАНИЕ
    • 4.1 Программная реализация
    • 4.2 Сборка системы
    • 4.3 Тестирование и оценка системы
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика