Детальная информация

Название: Разработка и исследование системы автоматического аннотирования текста на основе теории риторической структуры: выпускная квалификационная работа магистра: направление 02.04.03 «Математическое обеспечение и администрирование информационных систем» ; образовательная программа 02.04.03_01 «Математическое обеспечение и администрирование корпоративных информационных систем»
Авторы: Шкурина Марина Владимировна
Научный руководитель: Сабинин Олег Юрьевич
Другие авторы: Пархоменко Владимир Андреевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: автоматическое аннотирование текста; теория риторической структуры; обработка естественного языка; нейронные сети; automatic text summarization; rhetorical structure theory; natural language processing; neural networks
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 02.04.03
Группа специальностей ФГОС: 020000 - Компьютерные и информационные науки
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1356
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\8209

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Данная работа относится к сфере автоматической обработки естественного языка. В ней проводится обзор современного состояния проблемы автоматического аннотирования текста, анализируются имеющиеся ограничения существующих методов. Рассматривается возможность применения теории риторической структуры для получения более связных и емких аннотаций. Проанализированы существующие подходы к автоматическому определению риторической структуры текста, рассмотрены их достоинства и недостатки. На основе проведенного исследования с учетом всех достоинств и недостатков существующих методов и систем реализована трехмодульная архитектура системы для автоматического аннотирования текста. Первый модуль отвечает за сегментацию текста, второй определяет риторические отношения, третий – генерирует аннотации с учетом риторической структуры текста. Разработанная и реализованная система может быть применена в корпоративных системах документооборота, поисковых машинах и каталогах ресурсов Internet, автоматизированных информационно-библиотечных системах, каналах вещания и служб рассылки новостей. Результаты проведенного исследования итоговой системы позволяют говорить о целесообразности применения дискурсивного анализа для улучшения качества генерируемых аннотаций и продолжении исследований в этом направлении.

This work belongs to the field of automatic natural language processing. It gives an overview of the current state of the text summarization problem, limitations of the existing methods are analyzed. The possibility of applying Rhetorical Structure Theory to this task for getting more coherent and concise summaries is considered. Existing methods for automatic rhetorical structure parsing are analyzed, as well as their advantages and disadvantages. Based on the conducted research and taking into consideration all the strengths and weaknesses of the existing methods and systems, a system consisting of three modules is proposed. The first module segments the input text, the second module identifies rhetorical relations and the third one generates a summary with respect to the rhetorical structure of the input text. The system that was developed and implemented can be used by corporate document management systems, search engines and automated library information systems, broadcasting channels and news websites. The results of the conducted experiments with the final system show that discourse analysis can be used for getting summaries of better quality and that research in this direction can be continued.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • Задание на ВКР_2020
  • My_thesis
    • Разработка и исследование системы автоматического аннотирования текста на основе теории риторической структуры
      • Введение
      • 1. Анализ проблем автоматического аннотирования текстов и постановка задачи работы
      • 2. Анализ риторической структуры текста
      • 3. Разработка системы автоматического аннотирования текста
      • 4. Программная реализация системы
      • 5. Исследование системы автоматического аннотирования текста
      • Заключение
      • Список сокращений и условных обозначений
      • Словарь терминов
      • Список использованных источников
      • Приложение 1. Исходный код модуля сегментации
      • Приложение 2. Исходный код модуля определения отношений
      • Приложение 3. Исходный код модуля аннотирования
      • Приложение 4. Полный текст новости для оценки работы системы

Статистика использования

stat Количество обращений: 22
За последние 30 дней: 0
Подробная статистика