Details

Title: Система идентификации и нормализации упоминаний даты и времени в текстах на русском языке: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки»
Creators: Фам Тхань Фат
Scientific adviser: Тимофеев Дмитрий Андреевич
Other creators: Трифонов Петр Владимирович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: обработка естественного языка; извлечение информации; темпоральные выражения; система правил; разрешение неоднозначности; timeml; русский язык; natural language processing; information extraction; temporal expressions; rule system; ambiguity resolution; russian language
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Speciality code (FGOS): 02.03.02
Speciality group (FGOS): 020000 - Компьютерные и информационные науки
Links: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-2387
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Тема выпускной квалификационной работы: Система идентификации и нормализации упоминаний даты и времени в текстах на русском языке Целью работы является создание программной системы для извлечения из текста выражений, описывающих дату, время и длительность временного интервала Решение задачи идентификации и нормализации выражений даты и времени делится на две части. В первой части с помощью библиотеки Duckling извлекаются и нормализуются потенциальные временные выражения. Для этого был разработан набор правил, который был записан на языке программирования Haskell для извлечения даты и времени из текстов на русском языке. Во второй части список найденных кандидатов обрабатывается, чтобы скорректировать неверно нормализованные значения, разрешить неоднозначность и преобразовать найденные значения в выходной формат, соответствующий стандарту TimeML. Эти алгоритмы реализованы на языке Python. В результате система успешно идентифицирует упоминания даты, времени и длительности для достаточно большого подмножества русского языка и умеет разрешать некоторые случаи неоднозначности.

The subject of the graduate qualification work is “A system for identification and normalization of temporal expressions in Russian texts.” In this work, I present a software system for identification and normalization of date and time expression in texts written in Russian. In this work, I present a software system for identification and normalization of date and time expression in texts written in Russian. The processing has two stages. At the first state, candidate expressions are detected and normalized using the Duckling library. I extended Duckling by creating a new set of rules implemented Haskell. At the second stage, candidate expressions are filtered and corrected based on their context, and then converted to the TimeML annotation language. I implemented the second state in Python. As a result, the system successfully identifies several types of date and time expressions commonly used in Russian texts and resolves some common cases of ambiguity.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 1
Last 30 days: 0
Detailed usage statistics