Details

Title Разработка интеллектуального сервиса поиска по базе знаний с применением метода RAG и больших языковых моделей: выпускная квалификационная работа бакалавра: направление 02.03.01 «Математика и компьютерные науки» ; образовательная программа 02.03.01_01 «Системы искусственного интеллекта и суперкомпьютерные технологии»
Creators Черепанов Михаил Дмитриевич
Scientific adviser Лукашин Алексей Андреевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects дополненная генерация текста ; векторные базы данных ; векторный поиск ; патентный поиск ; retrieval augmented generation ; vector database ; vector search ; patent search
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 02.03.01
Speciality group (FGOS) 020000 - Компьютерные и информационные науки
DOI 10.18720/SPBPU/3/2025/vr/vr25-2947
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key ru\spstu\vkr\37199
Record create date 9/19/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

В данной работе предложен метод реализации сервиса поиска релевантных документов входной патентной заявке по базе знаний патентных документов федерального интститута промышленной собственности(ФИПС). Предложенный метод основан на семантическом поиске, реализованным путем векторизации текста. Работа включает в себя исследование инструментов построения векторных баз данных, методов индексации векторных баз данных, используемых метрик близости для проведения векторного поиска, а так же проведение тестирования методов индексации и метрик близости на предоставленном датасете. Сервис поиска реализован в соотвествии с опитмальными параметрами, выявленными на этапе тестирования. Поиск релевантных документов проводится по подготовленной базе знаний, учитывает структуру входной патентной заявки и влияние близости различных полей патентного документа на результаты поиска, а так же структуру связей между документами внутри тестового датасета. Сравнение результатов поиска производится с экспернтной оценкой ФИПС. Работа выполнена в рамках реализации полноценной RAG системы поиска по патентным документам ФИПС для упрощения экспертизы патентной заявки.

This work proposes a method for implementing a service that searches for documents relevant to an incoming patent application using the knowledge base of patent documents from the Federal Institute of Industrial Property (FIPS). The proposed method is based on semantic search implemented through text vectorization. The study includes an analysis of tools for building vector databases, indexing methods for vector databases, similarity metrics used for vector search, as well as testing of these indexing methods and similarity metrics on the provided dataset. The search service is implemented in accordance with the optimal parameters identified during the testing phase. The search for relevant documents is carried out over a prepared knowledge base, taking into account the structure of the input patent application, the impact of the similarity of various fields of a patent document on search results, and the structure of links between documents within the test dataset. The search results are compared with expert assessments provided by FIPS. This work is part of the development of a full-fledged Retrieval-Augmented Generation (RAG) system for patent document search at FIPS aimed at facilitating patent application examination.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous
  • Разработка интеллектуального сервиса поиска по базе знаний с применением метода RAG и больших языковых моделей
    • Введение
    • 1. Обзор предметной области
    • 2. Исследование методов
    • 3. Разработка алгоритмов
    • 4. Анализ результатов работы алгоритмов
    • Заключение
    • Список использованных источников

Access count: 4 
Last 30 days: 4

Detailed usage statistics