Разработка алгоритма повышения качества поиска с помощью методов близости текста: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»

Горюнов, Никита Сергеевич

Детальная информация

Название	Разработка алгоритма повышения качества поиска с помощью методов близости текста: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»
Авторы	Горюнов Никита Сергеевич
Научный руководитель	Лукашин Алексей Андреевич
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения	Санкт-Петербург, 2025
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	обработка естественного языка ; алгоритмы поиска ; близость текста ; трансформер ; энкодер ; adapter fuison ; машинное обучение ; natural language processing ; search algorithms ; text similarity ; transformer ; encoder ; adapter fusion ; machine learning
Тип документа	Выпускная квалификационная работа магистра
Тип файла	PDF
Язык	Русский
Уровень высшего образования	Магистратура
Код специальности ФГОС	02.04.01
Группа специальностей ФГОС	020000 - Компьютерные и информационные науки
DOI	10.18720/SPBPU/3/2025/vr/vr25-3791
Права доступа	Доступ по паролю из сети Интернет (чтение)
Дополнительно	Новинка
Ключ записи	ru\spstu\vkr\37436
Дата создания записи	19.09.2025

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Работа посвящена исследованию и разработке алгоритма повышения качества поиска с использованием методов близости текста и обработки естественного языка. Задачи, которые решались в ходе работы: 1. Изучение существующих методов поиска. 2. Анализ особенностей патентных заявок. 3. Подбор, сравнение и оценка моделей для реализации алгоритма поиска. 4. Исследование методов повышения качества поиска. 5. Оценка эффективности разработанного алгоритма. В качестве базы патентных заявок использовались данные, предоставленные ФИПС. В рамках работы были отобраны несколько моделей-энкодеров для реализации поиска на основе косинусной близости векторных преставлений текстов. Далее был предложен подход для создания нескольких обучающих выборок, на основе которых была проведена доменная адаптация моделей с использованием адаптеров. Были рассмотрены и оценены несколько архитектур моделей ранжирования, проведено их дообучение и объединение результатов работы. В результате несколько моделей были объединены в один алгоритм гибридного поиска.

This work is devoted to the research and development of an algorithm for improving search quality by employing text similarity methods and natural language processing techniques. The objectives addressed during this study were: 1. Reviewing existing search methods. 2. Analyzing the characteristics of patent applications. 3. Selecting, comparing, and evaluating models for implementing the search algorithm. 4. Investigating methods to enhance search quality. 5. Assessing the effectiveness of the developed algorithm. The dataset of patent applications used as the corpus was provided by FIPS. Within the scope of the thesis, several encoder models were chosen to implement a search based on cosine similarity of vector representations of texts. A methodology was then proposed for creating multiple training sets, upon which domain adaptation of the models was performed using adapter modules. Several ranking-model architectures were explored and evaluated; these models were fine-tuned and their outputs ensembled. As a result, multiple models were integrated into a single hybrid search algorithm.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Количество обращений: 4
За последние 30 дней: 4

Подробная статистика