Details
Title | Разработка интеллектуального сервиса поиска по базе знаний с применением метода RAG и больших языковых моделей: выпускная квалификационная работа бакалавра: направление 02.03.01 «Математика и компьютерные науки» ; образовательная программа 02.03.01_01 «Системы искусственного интеллекта и суперкомпьютерные технологии» |
---|---|
Creators | Черепанов Михаил Дмитриевич |
Scientific adviser | Лукашин Алексей Андреевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | дополненная генерация текста ; векторные базы данных ; векторный поиск ; патентный поиск ; retrieval augmented generation ; vector database ; vector search ; patent search |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 02.03.01 |
Speciality group (FGOS) | 020000 - Компьютерные и информационные науки |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-2947 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Additionally | New arrival |
Record key | ru\spstu\vkr\37199 |
Record create date | 9/19/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
В данной работе предложен метод реализации сервиса поиска релевантных документов входной патентной заявке по базе знаний патентных документов федерального интститута промышленной собственности(ФИПС). Предложенный метод основан на семантическом поиске, реализованным путем векторизации текста. Работа включает в себя исследование инструментов построения векторных баз данных, методов индексации векторных баз данных, используемых метрик близости для проведения векторного поиска, а так же проведение тестирования методов индексации и метрик близости на предоставленном датасете. Сервис поиска реализован в соотвествии с опитмальными параметрами, выявленными на этапе тестирования. Поиск релевантных документов проводится по подготовленной базе знаний, учитывает структуру входной патентной заявки и влияние близости различных полей патентного документа на результаты поиска, а так же структуру связей между документами внутри тестового датасета. Сравнение результатов поиска производится с экспернтной оценкой ФИПС. Работа выполнена в рамках реализации полноценной RAG системы поиска по патентным документам ФИПС для упрощения экспертизы патентной заявки.
This work proposes a method for implementing a service that searches for documents relevant to an incoming patent application using the knowledge base of patent documents from the Federal Institute of Industrial Property (FIPS). The proposed method is based on semantic search implemented through text vectorization. The study includes an analysis of tools for building vector databases, indexing methods for vector databases, similarity metrics used for vector search, as well as testing of these indexing methods and similarity metrics on the provided dataset. The search service is implemented in accordance with the optimal parameters identified during the testing phase. The search for relevant documents is carried out over a prepared knowledge base, taking into account the structure of the input patent application, the impact of the similarity of various fields of a patent document on search results, and the structure of links between documents within the test dataset. The search results are compared with expert assessments provided by FIPS. This work is part of the development of a full-fledged Retrieval-Augmented Generation (RAG) system for patent document search at FIPS aimed at facilitating patent application examination.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- Разработка интеллектуального сервиса поиска по базе знаний с применением метода RAG и больших языковых моделей
- Введение
- 1. Обзор предметной области
- 2. Исследование методов
- 3. Разработка алгоритмов
- 4. Анализ результатов работы алгоритмов
- Заключение
- Список использованных источников
Access count: 4
Last 30 days: 4