Details

Title: Алгоритм связывания именованных сущностей с использованием контекста употребления и морфологических признаков: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Creators: Агаев Аслан Фахри оглы
Scientific adviser: Медведев Борис Моисеевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2022
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: Алгоритмы; Информация — Обработка; Вычислительные машины электронные — Программы; обработка естественного языка; свя­зывание именованных сущностей; частеречная разметка; семантический анализ; морфологические признаки; natural language processing; named enitites linking; part of speech tagging; semantic analysis; morphological features
UDC: 510.5; 004.421; 621.391; 004.422.8
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 09.04.04
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2022/vr/vr23-1251
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\21541

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Тема магистерской диссертации: “Алгоритм связывания именованных сущностей с использованием контекста употребления и морфологических при­знаков”. Данная работа посвящена задаче обработки естественного языка под на­званием связывание именованных сущностей, в частности разработке вектор­ного алгоритма связывания именованных сущностей, который использует информацию об отношениях между словами и эффективен в условиях омони­мии контекстов употребления именованных сущностей. Предложенный алгоритм примечателен корректировкой весов модели векторных представлений согласно разработанным правилам, соответствие которым указывает на особую важность. Была разработана система, реализующая предложенный алгоритм, а так­же альтернативные известные алгоритмы для сравнения результатов. Экс­перименты проводились на корпусе новостных статей, для оценки качества бы­ла использована мера f1. В результате был сделан вывод об эффективности использования информации об отношениях между словами для улучшения качества связыва­ния именованных сущностей. Мера f1 для предложенного алгоритма составила 0.71 против 0.67 и 0.64 для известных методов.

The topic of the master's thesis: “An algorithm for linking named entities using the context of usage and morphological features”. This work is devoted to the problem of natural language processing called linking named entities, in particular, the development of a vector algorithm for linking named entities, which uses information about the relationship between words and is effective in the context of homonymy contexts of the use of named entities. The proposed algorithm is notable for adjusting the weights of the vector representation model according to the developed rules, compliance with which indicates particular importance. A system was developed that implements the proposed algorithm, as well as alternative known algorithms for comparing the results. Experiments were carried out on the body of news articles, the f1 measure was used to assess the quality. As a result, a conclusion was made about the effectiveness of using information about the relationships between words to improve the quality of linking named entities. The f1 measure for the proposed algorithm was 0.71 versus 0.67 and 0.64 for the known methods.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Table of Contents

  • ​ ВВЕДЕНИЕ
  • ​ ГЛАВА 1. МЕТОДЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА
    • ​ 1.1. Применение методов обработки естественного языка.
    • ​ 1.2. Векторные представления
    • ​ 1.3. Извлечение именованных сущностей
    • ​ 1.4. Связывание именованных сущностей
      • ​ 1.4.1. Связывание ИС с помощью векторных пред­ставлений
  • ​ ГЛАВА 2. РАЗРАБОТКА АЛГОРИТМА СВЯ­ЗЫВАНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ
  • ​ ГЛАВА 3. РАЗРАБОТКА ПРОГРАММНЫХ СРЕДСТВ ОБРАБОТКИ ТЕКСТОВ
    • ​ 3.1. Требования к системе
    • ​ 3.2. Обучение модели
      • ​ 3.2.1. Модель word2vec
      • ​ 3.2.2 Модель TF-IDF
      • ​ 3.2.3. Понижение размерности
      • ​ 3.2.4. Оптимизации быстродействия
  • ​ ГЛАВА 4. ИССЛЕДОВАНИЕ АЛГОРИТМА СВЯЗЫВАНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ
    • ​ 4.1. Эксперименты
    • ​ 4.2. Результаты
  • ​ ЗАКЛЮЧЕНИЕ
  • ​ СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
  • ​ Приложение 1. Код программы

Usage statistics

stat Access count: 4
Last 30 days: 0
Detailed usage statistics