Детальная информация

Название: Вывод грамматики CCG для русского языка на основе неразмеченного корпуса: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки»
Авторы: Алексеева Марина Владимировна
Научный руководитель: Самочадин Александр Викторович
Другие авторы: Локшина Екатерина Геннадиевна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2021
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: категориальные грамматики; синтаксический анализ; русский язык; categorical grammars; syntactic analysis; Russian language
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 02.03.02
Группа специальностей ФГОС: 020000 - Компьютерные и информационные науки
Ссылки: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-1973
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\14220

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

При решении многих задач обработки естественных языков часто нужно производить синтаксический анализ текста на основе грамматики языка. Среди способов описания грамматик большой интерес представляют комбинаторные категориальные грамматики (CCG) — лингвистически обоснованный формализм, который позволяет описывать широкий класс языковых явлений и в то же время допускает эффективный синтаксический анализ, а также предоставляет достаточно простой способ систематически строить семантические представления предложений на основе их деревьев вывода. Для построения грамматик, охватывающих широкий класс реальных текстов, чаще всего используется статистический вывод. Автоматическому выводу грамматик на основе CCG посвящено большое количество работ, однако в них в основном рассматриваются только грамматики английского языка. Для морфологически богатых языков, в том числе для русского языка, автоматический вывод грамматик CCG и применение построенных грамматик для решения прикладных задач обработки теста остается недостаточно исследованным. Данная работа посвящена разработке и реализации алгоритма автоматического вывода грамматики CCG для русского языка на основе неразмеченного корпуса текстов. В основе работы лежат алгоритмы, разработанные Й. Биском и Дж. Хокенмайер для английского языка, которые были адаптированы для русского языка, в первую очередь с учетом его морфологии. Непосредственное использование доступной реализации этого подхода для русского языка невозможно: в русском языке каждому слову соответствует гораздо большее количество форм, согласование которых необходимо учитывать при формировании дерева вывода, при этом порядок слов является свободным. Для адаптации алгоритма к особенностям русского языка в данной работе сформулированы правила вывода новых категорий и предусмотрены способы хранения различных форм слов и их связей. Исходными данными для построения модели является неразмеченный корпус текста, для каждого предложения в котором сначала производится морфологический анализ. Каждому слову приписывается набор стандартных категорий. Далее производится синтаксический разбор предложения с учетом согласования морфологических признаков слов. В словарь заносятся те категории, с которыми предложения удалось разобрать, с добавлением соответствующих ограничений на морфологические признаки. После этого строится вероятностная модель. Для реализации данного программного комплекса выбран язык Python, для предварительной обработки и частеречной разметки текстов на русском языке используется библиотека pymorphy2, для синтаксического анализа на этапе формирования словаря используется парсер, входящий в библиотеку NLTK. В качестве базы данных в проекте используется реляционная СУБД sqlite.

In many natural language processing tasks, it is often necessary to parse the text based on the language grammar. Among the methods for describing grammars, combinatorial categorical grammars (CCG) are of great interest. This linguistically grounded formalism allows the description of a broad class of linguistic phenomena and, at the same time, allows for efficient syntactic analysis and also provides a systematic way to construct semantic representations. Most wide-coverage grammars are probabilistic and rely on syntactically annotated corpora, which are expensive to create. An alternative approach is to apply unsupervised or semisupervised algorithms to infer grammars from unlabeled texts. There are several papers on the automatic inference of CCG, but they usually consider only grammars for English. For morphologically rich languages, including Russian, the automatic derivation of CCG grammars and the use of the constructed grammars for solving applied problems of test processing remain insufficiently studied. This work aims to develop and implement an algorithm for the automatic derivation of the CCG grammar for the Russian language based on an unmarked corpus of texts. It is based on algorithms developed by Y. Bisk and J. Hockenmaier for the English language. These algorithms were adapted for the Russian language, primarily taking into account its morphology. The adaptation of the algorithm was necessary: in Russian, each word corresponds to a much larger number of forms, the coordination of which must be taken into account when forming the inference tree, while the word order is free. In this work, we developed a set of rules for the derivation of new categories and implemented methods for storing various forms of words and connections between them. The input data for building a model is an unlabeled corpus of texts. For each sentence in the corpus, morphological analysis is performed first. Each word is assigned a set of standard categories. Next, the syntactic analysis of the sentence is performed, taking into account the agreement of the morphological features of the words. The dictionary contains those categories with which the sentences can be parsed with given restrictions on morphological features. Finally, a probabilistic model is built. The software is implemented using the Python programming language. We used the pymorphy2 library for text preprocessing and part-of-speech marking of texts in Russian. The stage of ditionary formation uses the CCG parser included in the NLTK library. The relational database SQLite is used as a database in the project.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 1
За последние 30 дней: 0
Подробная статистика