Details

Title: Разработка и исследование системы автоматического аннотирования текста на основе теории риторической структуры: выпускная квалификационная работа магистра: направление 02.04.03 «Математическое обеспечение и администрирование информационных систем» ; образовательная программа 02.04.03_01 «Математическое обеспечение и администрирование корпоративных информационных систем»
Creators: Шкурина Марина Владимировна
Scientific adviser: Сабинин Олег Юрьевич
Other creators: Пархоменко Владимир Андреевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: автоматическое аннотирование текста; теория риторической структуры; обработка естественного языка; нейронные сети; automatic text summarization; rhetorical structure theory; natural language processing; neural networks
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Speciality code (FGOS): 02.04.03
Speciality group (FGOS): 020000 - Компьютерные и информационные науки
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1356
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Данная работа относится к сфере автоматической обработки естественного языка. В ней проводится обзор современного состояния проблемы автоматического аннотирования текста, анализируются имеющиеся ограничения существующих методов. Рассматривается возможность применения теории риторической структуры для получения более связных и емких аннотаций. Проанализированы существующие подходы к автоматическому определению риторической структуры текста, рассмотрены их достоинства и недостатки. На основе проведенного исследования с учетом всех достоинств и недостатков существующих методов и систем реализована трехмодульная архитектура системы для автоматического аннотирования текста. Первый модуль отвечает за сегментацию текста, второй определяет риторические отношения, третий – генерирует аннотации с учетом риторической структуры текста. Разработанная и реализованная система может быть применена в корпоративных системах документооборота, поисковых машинах и каталогах ресурсов Internet, автоматизированных информационно-библиотечных системах, каналах вещания и служб рассылки новостей. Результаты проведенного исследования итоговой системы позволяют говорить о целесообразности применения дискурсивного анализа для улучшения качества генерируемых аннотаций и продолжении исследований в этом направлении.

This work belongs to the field of automatic natural language processing. It gives an overview of the current state of the text summarization problem, limitations of the existing methods are analyzed. The possibility of applying Rhetorical Structure Theory to this task for getting more coherent and concise summaries is considered. Existing methods for automatic rhetorical structure parsing are analyzed, as well as their advantages and disadvantages. Based on the conducted research and taking into consideration all the strengths and weaknesses of the existing methods and systems, a system consisting of three modules is proposed. The first module segments the input text, the second module identifies rhetorical relations and the third one generates a summary with respect to the rhetorical structure of the input text. The system that was developed and implemented can be used by corporate document management systems, search engines and automated library information systems, broadcasting channels and news websites. The results of the conducted experiments with the final system show that discourse analysis can be used for getting summaries of better quality and that research in this direction can be continued.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users Read Print Download
-> Internet Anonymous

Table of Contents

  • Задание на ВКР_2020
  • My_thesis
    • Разработка и исследование системы автоматического аннотирования текста на основе теории риторической структуры
      • Введение
      • 1. Анализ проблем автоматического аннотирования текстов и постановка задачи работы
      • 2. Анализ риторической структуры текста
      • 3. Разработка системы автоматического аннотирования текста
      • 4. Программная реализация системы
      • 5. Исследование системы автоматического аннотирования текста
      • Заключение
      • Список сокращений и условных обозначений
      • Словарь терминов
      • Список использованных источников
      • Приложение 1. Исходный код модуля сегментации
      • Приложение 2. Исходный код модуля определения отношений
      • Приложение 3. Исходный код модуля аннотирования
      • Приложение 4. Полный текст новости для оценки работы системы

Usage statistics

stat Access count: 2
Last 30 days: 1
Detailed usage statistics