Разработка алгоритма повышения качества поиска с помощью методов близости текста: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»

Горюнов, Никита Сергеевич

Details

Title	Разработка алгоритма повышения качества поиска с помощью методов близости текста: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»
Creators	Горюнов Никита Сергеевич
Scientific adviser	Лукашин Алексей Андреевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2025
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	обработка естественного языка ; алгоритмы поиска ; близость текста ; трансформер ; энкодер ; adapter fuison ; машинное обучение ; natural language processing ; search algorithms ; text similarity ; transformer ; encoder ; adapter fusion ; machine learning
Document type	Master graduation qualification work
File type	PDF
Language	Russian
Level of education	Master
Speciality code (FGOS)	02.04.01
Speciality group (FGOS)	020000 - Компьютерные и информационные науки
DOI	10.18720/SPBPU/3/2025/vr/vr25-3791
Rights	Доступ по паролю из сети Интернет (чтение)
Additionally	New arrival
Record key	ru\spstu\vkr\37436
Record create date	9/19/2025

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Работа посвящена исследованию и разработке алгоритма повышения качества поиска с использованием методов близости текста и обработки естественного языка. Задачи, которые решались в ходе работы: 1. Изучение существующих методов поиска. 2. Анализ особенностей патентных заявок. 3. Подбор, сравнение и оценка моделей для реализации алгоритма поиска. 4. Исследование методов повышения качества поиска. 5. Оценка эффективности разработанного алгоритма. В качестве базы патентных заявок использовались данные, предоставленные ФИПС. В рамках работы были отобраны несколько моделей-энкодеров для реализации поиска на основе косинусной близости векторных преставлений текстов. Далее был предложен подход для создания нескольких обучающих выборок, на основе которых была проведена доменная адаптация моделей с использованием адаптеров. Были рассмотрены и оценены несколько архитектур моделей ранжирования, проведено их дообучение и объединение результатов работы. В результате несколько моделей были объединены в один алгоритм гибридного поиска.

This work is devoted to the research and development of an algorithm for improving search quality by employing text similarity methods and natural language processing techniques. The objectives addressed during this study were: 1. Reviewing existing search methods. 2. Analyzing the characteristics of patent applications. 3. Selecting, comparing, and evaluating models for implementing the search algorithm. 4. Investigating methods to enhance search quality. 5. Assessing the effectiveness of the developed algorithm. The dataset of patent applications used as the corpus was provided by FIPS. Within the scope of the thesis, several encoder models were chosen to implement a search based on cosine similarity of vector representations of texts. A methodology was then proposed for creating multiple training sets, upon which domain adaptation of the models was performed using adapter modules. Several ranking-model architectures were explored and evaluated; these models were fine-tuned and their outputs ensembled. As a result, multiple models were integrated into a single hybrid search algorithm.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 4
Last 30 days: 4

Detailed usage statistics