Details
Title | Разработка алгоритма повышения качества поиска с помощью методов близости текста: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение» |
---|---|
Creators | Горюнов Никита Сергеевич |
Scientific adviser | Лукашин Алексей Андреевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | обработка естественного языка ; алгоритмы поиска ; близость текста ; трансформер ; энкодер ; adapter fuison ; машинное обучение ; natural language processing ; search algorithms ; text similarity ; transformer ; encoder ; adapter fusion ; machine learning |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 02.04.01 |
Speciality group (FGOS) | 020000 - Компьютерные и информационные науки |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-3791 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Additionally | New arrival |
Record key | ru\spstu\vkr\37436 |
Record create date | 9/19/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Работа посвящена исследованию и разработке алгоритма повышения качества поиска с использованием методов близости текста и обработки естественного языка. Задачи, которые решались в ходе работы: 1. Изучение существующих методов поиска. 2. Анализ особенностей патентных заявок. 3. Подбор, сравнение и оценка моделей для реализации алгоритма поиска. 4. Исследование методов повышения качества поиска. 5. Оценка эффективности разработанного алгоритма. В качестве базы патентных заявок использовались данные, предоставленные ФИПС. В рамках работы были отобраны несколько моделей-энкодеров для реализации поиска на основе косинусной близости векторных преставлений текстов. Далее был предложен подход для создания нескольких обучающих выборок, на основе которых была проведена доменная адаптация моделей с использованием адаптеров. Были рассмотрены и оценены несколько архитектур моделей ранжирования, проведено их дообучение и объединение результатов работы. В результате несколько моделей были объединены в один алгоритм гибридного поиска.
This work is devoted to the research and development of an algorithm for improving search quality by employing text similarity methods and natural language processing techniques. The objectives addressed during this study were: 1. Reviewing existing search methods. 2. Analyzing the characteristics of patent applications. 3. Selecting, comparing, and evaluating models for implementing the search algorithm. 4. Investigating methods to enhance search quality. 5. Assessing the effectiveness of the developed algorithm. The dataset of patent applications used as the corpus was provided by FIPS. Within the scope of the thesis, several encoder models were chosen to implement a search based on cosine similarity of vector representations of texts. A methodology was then proposed for creating multiple training sets, upon which domain adaptation of the models was performed using adapter modules. Several ranking-model architectures were explored and evaluated; these models were fine-tuned and their outputs ensembled. As a result, multiple models were integrated into a single hybrid search algorithm.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 4
Last 30 days: 4