Детальная информация

Название Разработка интеллектуального алгоритма поиска похожих документов в задаче патентной экспертизы: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»
Авторы Фазылова Алика Виаленовна
Научный руководитель Лукашин Алексей Андреевич
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения Санкт-Петербург, 2025
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика патентный поиск ; поиск похожих ; машинное обучение ; векторный поиск ; модель вложений ; patent search ; similarity search ; machine learning ; vector search ; embedding model
Тип документа Выпускная квалификационная работа магистра
Тип файла PDF
Язык Русский
Уровень высшего образования Магистратура
Код специальности ФГОС 02.04.01
Группа специальностей ФГОС 020000 - Компьютерные и информационные науки
DOI 10.18720/SPBPU/3/2025/vr/vr25-3795
Права доступа Доступ по паролю из сети Интернет (чтение)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\37440
Дата создания записи 19.09.2025

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Данная работа посвящена задаче семантического поиска похожих патентных документов с использованием современных языковых моделей. Основное внимание уделено преобразованию текстов патентов в численное представление и последующему поиску по векторному пространству. В ходе экспериментов изучалось влияние различных разделов документа на качество поиска, а также рассматривались методы разбиения текста на части, с дальнейшей агрегацией их эмбеддингов для оценки схожести между патентами. Для повышения интерпретируемости результатов использовалась генеративная языковая модель, формулирующая текстовые объяснения похожести документов. Был реализован поиск по базам векторных представлений с использованием алгоритмов приближенных ближайших соседей. Для повышения качества результатов применялся этап переупорядочивания кандидатов с помощью дообученной модели, классифицирующей векторные пары патентов как релевантные или нерелевантные. Качество поиска оценивалось с использованием метрик Recall@k, MRR@k и MAP@k. Проведённое исследование раскрывает потенциал применения векторных представлений текста в задачах семантического поиска и может служить основой для дальнейших разработок в области интеллектуального анализа патентной информации.

This thesis focuses on the problem of semantic search in patent documents using modern language models. The main emphasis is placed on converting patent texts into numerical vector representations and performing retrieval in vector space. The experiments examined how different sections of a patent (such as abstract, claims, and description) affect search quality, as well as methods for splitting texts into semantic chunks and aggregating their embeddings to assess document similarity. To improve the interpretability of results, a generative language model was used to provide textual explanations of document similarity. Vector-based retrieval was implemented using nearest neighbor search algorithms, including HNSW. To improve ranking quality, a reranking stage was introduced based on a fine-tuned model that classifies vector pairs of patents as relevant or not. Search performance was evaluated using Recall@k, MRR@k, and MAP@k metrics. The conducted study demonstrates the potential of using vector representations of text in semantic search tasks and can serve as a foundation for further developments in the field of intelligent analysis of patent information.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать
Интернет Авторизованные пользователи СПбПУ
Прочитать
Интернет Анонимные пользователи

Количество обращений: 1 
За последние 30 дней: 1

Подробная статистика