Детальная информация

Название: Алгоритм связывания именованных сущностей с использованием контекста употребления и морфологических признаков: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Авторы: Агаев Аслан Фахри оглы
Научный руководитель: Медведев Борис Моисеевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2022
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Алгоритмы; Информация — Обработка; Вычислительные машины электронные — Программы; обработка естественного языка; свя­зывание именованных сущностей; частеречная разметка; семантический анализ; морфологические признаки; natural language processing; named enitites linking; part of speech tagging; semantic analysis; morphological features
УДК: 510.5; 004.421; 621.391; 004.422.8
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2022/vr/vr23-1251
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\21541

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тема магистерской диссертации: “Алгоритм связывания именованных сущностей с использованием контекста употребления и морфологических при­знаков”. Данная работа посвящена задаче обработки естественного языка под на­званием связывание именованных сущностей, в частности разработке вектор­ного алгоритма связывания именованных сущностей, который использует информацию об отношениях между словами и эффективен в условиях омони­мии контекстов употребления именованных сущностей. Предложенный алгоритм примечателен корректировкой весов модели векторных представлений согласно разработанным правилам, соответствие которым указывает на особую важность. Была разработана система, реализующая предложенный алгоритм, а так­же альтернативные известные алгоритмы для сравнения результатов. Экс­перименты проводились на корпусе новостных статей, для оценки качества бы­ла использована мера f1. В результате был сделан вывод об эффективности использования информации об отношениях между словами для улучшения качества связыва­ния именованных сущностей. Мера f1 для предложенного алгоритма составила 0.71 против 0.67 и 0.64 для известных методов.

The topic of the master's thesis: “An algorithm for linking named entities using the context of usage and morphological features”. This work is devoted to the problem of natural language processing called linking named entities, in particular, the development of a vector algorithm for linking named entities, which uses information about the relationship between words and is effective in the context of homonymy contexts of the use of named entities. The proposed algorithm is notable for adjusting the weights of the vector representation model according to the developed rules, compliance with which indicates particular importance. A system was developed that implements the proposed algorithm, as well as alternative known algorithms for comparing the results. Experiments were carried out on the body of news articles, the f1 measure was used to assess the quality. As a result, a conclusion was made about the effectiveness of using information about the relationships between words to improve the quality of linking named entities. The f1 measure for the proposed algorithm was 0.71 versus 0.67 and 0.64 for the known methods.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • ​ ВВЕДЕНИЕ
  • ​ ГЛАВА 1. МЕТОДЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА
    • ​ 1.1. Применение методов обработки естественного языка.
    • ​ 1.2. Векторные представления
    • ​ 1.3. Извлечение именованных сущностей
    • ​ 1.4. Связывание именованных сущностей
      • ​ 1.4.1. Связывание ИС с помощью векторных пред­ставлений
  • ​ ГЛАВА 2. РАЗРАБОТКА АЛГОРИТМА СВЯ­ЗЫВАНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ
  • ​ ГЛАВА 3. РАЗРАБОТКА ПРОГРАММНЫХ СРЕДСТВ ОБРАБОТКИ ТЕКСТОВ
    • ​ 3.1. Требования к системе
    • ​ 3.2. Обучение модели
      • ​ 3.2.1. Модель word2vec
      • ​ 3.2.2 Модель TF-IDF
      • ​ 3.2.3. Понижение размерности
      • ​ 3.2.4. Оптимизации быстродействия
  • ​ ГЛАВА 4. ИССЛЕДОВАНИЕ АЛГОРИТМА СВЯЗЫВАНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ
    • ​ 4.1. Эксперименты
    • ​ 4.2. Результаты
  • ​ ЗАКЛЮЧЕНИЕ
  • ​ СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
  • ​ Приложение 1. Код программы

Статистика использования

stat Количество обращений: 3
За последние 30 дней: 0
Подробная статистика