Детальная информация

Название: Разработка системы извлечения описания структуры дискурса из текстов диалогов: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки»
Авторы: Ланцева Анастасия Юрьевна
Научный руководитель: Тимофеев Дмитрий Андреевич
Другие авторы: Локшина Екатерина Геннадиевна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: обработка естественного языка; структура дискурса; диалоги со многими участниками; stac; natural language processing; discourse structure; multi-party dialogues
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Код специальности ФГОС: 02.03.02
Группа специальностей ФГОС: 020000 - Компьютерные и информационные науки
Ссылки: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-913
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тема выпускной квалификационной работы: «Разработка системы извлечения описания структуры дискурса из текстов диалогов». Данная работа посвящена восстановлению структуры дискурса в диалогах с многими участниками с помощью методов машинного обучения. В ходе исследования были решены следующие задачи. 1. Изучение особенностей диалогов с многими участниками, исследование графа дискурса и ограничений на его структуру. 2. Выбор наиболее подходящего способа представления слов корпуса в векторной форме. 3. Разработка вычисления локального представления для каждой реплики диалога, кодирующий последовательность слов в предложении на основе методов машинного обучения. 4. Разработка модели, последовательно вычисляющей наличие связи между репликами диалога. 5. Разработка модели, вычисляющей тип связи между репликами. Исходными данными для обучения выбран корпус STAC - набор диалогов из онлайн версии игры The Settlers of Catan. Это игра со многими участниками, в чате которой, участники могут общаться на темы, не связанные с игровым процессом. Это делает корпус STAC показательным примером для исследования диалогов с многими участниками. Была изучена структура диалогов с многими участниками – ориентированный ациклический граф. Основным ограничением, накладываемым на структуру графа дискурса, является отсутствие направленной связи от более поздних реплик к более ранним. Реплики диалогов поделены на два типа: EDU и CDU, поэтому исходный граф дискурса имеет два типа ребер. Реализован алгоритм, представляющий эквивалентное преобразование к графу с одним типом ребер. Обучена модель глубокой нейронной сети, представляющая двунаправленный автоэнкодер GRU для вычисления локальных представлений реплик диалогов. Разработаны модели для вычисления глобальных представлений диалогов, вычисления наличия связи между репликами и вычисления типа связи между репликами, использующие методы машинного обучения. В результате были разработаны алгоритмы для восстановления структуры дискурса со значением метрики F_1 0.65 и 0.48 для определения наличия связи определения типа связи соответственно. Полученные результаты могут быть использованы для более эффективного решения других задач обработки естественного языка, таких как разработка диалоговых ассистентов, речевых интерфейсов, а также для информационного поиска и извлечения информации.

The theme of the final qualification work: "Development of a system for extracting a description of the structure of discourse from dialogue texts." This work is devoted to restoring the structure of discourse in dialogs with many participants using machine learning methods. Tasks that were solved during the study: 1. The study of the features of dialogues with many participants, the study of the graph of discourse and the limitations on its structure. 2. The choice of the most suitable way to represent the words of the corpus in vector form. 3. Development of a local representation calculation for each dialogue replica, encoding a sequence of words in a sentence based on machine learning methods. 4. Development of a model that sequentially calculates the presence of communication between dialogue replicas. 5. Development of a model that calculates the type of connection between replicas. The STAC corpus, a set of dialogs from the online version of the Settlers of Catan game was chosen as the main dataset. Settlers of Catan is a board game with multiple participants that involves trading between players. In the online adaptation of a game, the trading takes place in a chat, which the players also use to discuss topics not related to the gameplay. The diversity of topics and the rich structure of communication in the chat logs make STAC a representative corpus of dialogues with multiple participants. The discourse structure is usually described as a directed acyclic graph whose vertices correspond to utterances and edges denote discourse relations. The structure of a discourse graph is subject to the chronological ordering constraint: no edge can go from a later utterance to an earlier one. Dialogue utterances are divided into two types: EDU and CDU, so the original discourse graph has two types of edges. We implemented an algorithm that transforms it into a graph that contains EDU vertices only. A GRU bidirectional auto-encoder has been trained for computing local representations of utterances. Models have been developed for calculating global representations of dialogs, calculating the presence of communication between replicas, and calculating the type of communication between replicas using machine learning methods. As a result, algorithms were developed for reconstructing the discourse structure with the F_1 metrics of 0.65 and 0.48 to determine the presence of a connection, determining the type of connection, respectively The results can be used to more effectively solve other problems of natural language processing, such as the development of interactive assistants, speech interfaces, as well as for information retrieval and information retrieval.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 1
За последние 30 дней: 1
Подробная статистика