Details
Title | Разработка алгоритмов формирования резюме по найденным документам в базе знаний с применением больших языковых моделей: выпускная квалификационная работа бакалавра: направление 02.03.01 «Математика и компьютерные науки» ; образовательная программа 02.03.01_01 «Системы искусственного интеллекта и суперкомпьютерные технологии» |
---|---|
Creators | Гусева Станислава Александровна |
Scientific adviser | Лукашин Алексей Андреевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | суммаризация ; большие языковые модели ; патентный поиск ; абстрактивное резюме ; предобработка текста ; Retrieval-Augmented Generation ; LLaMA ; DeepSeek ; Mistral ; Gemma ; LLM ; большая языковая модель ; summarization ; large language models ; patent search ; abstractive ; summary ; text preprocessing ; large language model |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 02.03.01 |
Speciality group (FGOS) | 020000 - Компьютерные и информационные науки |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-2951 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Additionally | New arrival |
Record key | ru\spstu\vkr\37203 |
Record create date | 9/19/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Предметом выпускной квалификационной работы являются алгоритмы автоматической обработки текстов. Тема работы — разработка алгоритмов формирования резюме по найденным документам в базе знаний патентных документов с применением больших языковых моделей. Целью исследования сокращение времни патентного поиска. В качестве методологии применяются подходы абстрактивной суммаризации текстов, включающие предварительную очистку и сегментацию, выделение ключевых смысловых блоков, а также генерацию резюме с использованием моделей LLaMA, DeepSeek, Mistral, Gemma. В результате работы разработан программный прототип, реализующий предложенные алгоритмы. Проведена экспериментальная оценка с использованием эталонных метрик и не эталонных метрик, которые показали состоятельность предложенного подхода в сравнении существующими методами. Результаты могут быть использованы в интеллектуальных системах патентного поиска, автоматизации анализа заявок, а также в аналитических платформах, обрабатывающих технические и научные тексты. Сделан вывод о высокой эффективности применения больших языковых моделей в задачах суммаризации документов. Разработанный подход позволяет сократить время анализа патентной информации.
The subject of this bachelors thesis is the development of algorithms for automatic text processing. The topic of the study is the development of algorithms for generating summaries of retrieved documents in a patent knowledge base using large language models. The objective of the research is to reduce the time required for patent search. The methodology involves approaches of abstractive text summarization, including preliminary cleaning and segmentation, identification of key semantic blocks, and summary generation using models such as LLaMA, DeepSeek, Mistral, and Gemma. As a result of the work, a software prototype implementing the proposed algorithms has been developed. An experimental evaluation was conducted using both reference-based and reference-free metrics, which demonstrated the effectiveness of the proposed approach in comparison with existing methods. The results can be applied in intelligent patent search systems, automation of application analysis, and analytical platforms that process technical and scientific texts. The conclusion confirms the high efficiency of large language models in document summarization tasks. The proposed approach enables a significant reduction in the time required to analyze patent information.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- Разработка алгоритмов формирования резюме по найденным документам в базе знаний с применением больших языковых моделей
- Введение
- 1. Анализ методов формирования резюме на основе документов базы знаний
- Формальная постановка задачи
- 2. Разработка алгоритмов формирования резюме с использованием больших языковых моделей
- 3. Экспериментальное исследование эффективности разработанных алгоритмов
- Заключение
- Список использованных источников
Access count: 3
Last 30 days: 3