Детальная информация

Название: Система идентификации и нормализации упоминаний даты и времени в текстах на русском языке: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки»
Авторы: Фам Тхань Фат
Научный руководитель: Тимофеев Дмитрий Андреевич
Другие авторы: Трифонов Петр Владимирович
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: обработка естественного языка; извлечение информации; темпоральные выражения; система правил; разрешение неоднозначности; timeml; русский язык; natural language processing; information extraction; temporal expressions; rule system; ambiguity resolution; russian language
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 02.03.02
Группа специальностей ФГОС: 020000 - Компьютерные и информационные науки
Ссылки: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-2387
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\7390

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тема выпускной квалификационной работы: Система идентификации и нормализации упоминаний даты и времени в текстах на русском языке Целью работы является создание программной системы для извлечения из текста выражений, описывающих дату, время и длительность временного интервала Решение задачи идентификации и нормализации выражений даты и времени делится на две части. В первой части с помощью библиотеки Duckling извлекаются и нормализуются потенциальные временные выражения. Для этого был разработан набор правил, который был записан на языке программирования Haskell для извлечения даты и времени из текстов на русском языке. Во второй части список найденных кандидатов обрабатывается, чтобы скорректировать неверно нормализованные значения, разрешить неоднозначность и преобразовать найденные значения в выходной формат, соответствующий стандарту TimeML. Эти алгоритмы реализованы на языке Python. В результате система успешно идентифицирует упоминания даты, времени и длительности для достаточно большого подмножества русского языка и умеет разрешать некоторые случаи неоднозначности.

The subject of the graduate qualification work is “A system for identification and normalization of temporal expressions in Russian texts.” In this work, I present a software system for identification and normalization of date and time expression in texts written in Russian. In this work, I present a software system for identification and normalization of date and time expression in texts written in Russian. The processing has two stages. At the first state, candidate expressions are detected and normalized using the Duckling library. I extended Duckling by creating a new set of rules implemented Haskell. At the second stage, candidate expressions are filtered and corrected based on their context, and then converted to the TimeML annotation language. I implemented the second state in Python. As a result, the system successfully identifies several types of date and time expressions commonly used in Russian texts and resolves some common cases of ambiguity.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Внешние организации №2 Все Прочитать
Внешние организации №1 Все
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
Интернет Авторизованные пользователи (не СПбПУ, №2) Прочитать
Интернет Авторизованные пользователи (не СПбПУ, №1)
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 3
За последние 30 дней: 0
Подробная статистика