Details

Title Разработка алгоритма повышения качества поиска с помощью методов близости текста: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»
Creators Горюнов Никита Сергеевич
Scientific adviser Лукашин Алексей Андреевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects обработка естественного языка ; алгоритмы поиска ; близость текста ; трансформер ; энкодер ; adapter fuison ; машинное обучение ; natural language processing ; search algorithms ; text similarity ; transformer ; encoder ; adapter fusion ; machine learning
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 02.04.01
Speciality group (FGOS) 020000 - Компьютерные и информационные науки
DOI 10.18720/SPBPU/3/2025/vr/vr25-3791
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\37436
Record create date 9/19/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Работа посвящена исследованию и разработке алгоритма повышения качества поиска с использованием методов близости текста и обработки естественного языка. Задачи, которые решались в ходе работы: 1. Изучение существующих методов поиска. 2. Анализ особенностей патентных заявок. 3. Подбор, сравнение и оценка моделей для реализации алгоритма поиска. 4. Исследование методов повышения качества поиска. 5. Оценка эффективности разработанного алгоритма. В качестве базы патентных заявок использовались данные, предоставленные ФИПС. В рамках работы были отобраны несколько моделей-энкодеров для реализации поиска на основе косинусной близости векторных преставлений текстов. Далее был предложен подход для создания нескольких обучающих выборок, на основе которых была проведена доменная адаптация моделей с использованием адаптеров. Были рассмотрены и оценены несколько архитектур моделей ранжирования, проведено их дообучение и объединение результатов работы. В результате несколько моделей были объединены в один алгоритм гибридного поиска.

This work is devoted to the research and development of an algorithm for improving search quality by employing text similarity methods and natural language processing techniques. The objectives addressed during this study were: 1. Reviewing existing search methods. 2. Analyzing the characteristics of patent applications. 3. Selecting, comparing, and evaluating models for implementing the search algorithm. 4. Investigating methods to enhance search quality. 5. Assessing the effectiveness of the developed algorithm. The dataset of patent applications used as the corpus was provided by FIPS. Within the scope of the thesis, several encoder models were chosen to implement a search based on cosine similarity of vector representations of texts. A methodology was then proposed for creating multiple training sets, upon which domain adaptation of the models was performed using adapter modules. Several ranking-model architectures were explored and evaluated; these models were fine-tuned and their outputs ensembled. As a result, multiple models were integrated into a single hybrid search algorithm.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous

Access count: 4 
Last 30 days: 4

Detailed usage statistics