Алгоритм связывания именованных сущностей с использованием контекста употребления и морфологических признаков: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»

Агаев, Аслан Фахри оглы

Вход в систему

Детальная информация

	Таблица	Карточка	RUSMARC

Название:	Алгоритм связывания именованных сущностей с использованием контекста употребления и морфологических признаков: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Авторы:	Агаев Аслан Фахри оглы
Научный руководитель:	Медведев Борис Моисеевич
Организация:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения:	Санкт-Петербург, 2022
Коллекция:	Выпускные квалификационные работы; Общая коллекция
Тематика:	Алгоритмы; Информация — Обработка; Вычислительные машины электронные — Программы; обработка естественного языка; связывание именованных сущностей; частеречная разметка; семантический анализ; морфологические признаки; natural language processing; named enitites linking; part of speech tagging; semantic analysis; morphological features
УДК:	510.5; 004.421; 621.391; 004.422.8
Тип документа:	Выпускная квалификационная работа магистра
Тип файла:	PDF
Язык:	Русский
Уровень высшего образования:	Магистратура
Код специальности ФГОС:	09.04.04
Группа специальностей ФГОС:	090000 - Информатика и вычислительная техника
DOI:	10.18720/SPBPU/3/2022/vr/vr23-1251
Права доступа:	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи:	ru\spstu\vkr\21541

Разрешенные действия: –

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тема магистерской диссертации: “Алгоритм связывания именованных сущностей с использованием контекста употребления и морфологических признаков”. Данная работа посвящена задаче обработки естественного языка под названием связывание именованных сущностей, в частности разработке векторного алгоритма связывания именованных сущностей, который использует информацию об отношениях между словами и эффективен в условиях омонимии контекстов употребления именованных сущностей. Предложенный алгоритм примечателен корректировкой весов модели векторных представлений согласно разработанным правилам, соответствие которым указывает на особую важность. Была разработана система, реализующая предложенный алгоритм, а также альтернативные известные алгоритмы для сравнения результатов. Эксперименты проводились на корпусе новостных статей, для оценки качества была использована мера f1. В результате был сделан вывод об эффективности использования информации об отношениях между словами для улучшения качества связывания именованных сущностей. Мера f1 для предложенного алгоритма составила 0.71 против 0.67 и 0.64 для известных методов.

The topic of the master's thesis: “An algorithm for linking named entities using the context of usage and morphological features”. This work is devoted to the problem of natural language processing called linking named entities, in particular, the development of a vector algorithm for linking named entities, which uses information about the relationship between words and is effective in the context of homonymy contexts of the use of named entities. The proposed algorithm is notable for adjusting the weights of the vector representation model according to the developed rules, compliance with which indicates particular importance. A system was developed that implements the proposed algorithm, as well as alternative known algorithms for comparing the results. Experiments were carried out on the body of news articles, the f1 measure was used to assess the quality. As a result, a conclusion was made about the effectiveness of using information about the relationships between words to improve the quality of linking named entities. The f1 measure for the proposed algorithm was 0.71 versus 0.67 and 0.64 for the known methods.

Права на использование объекта хранения

	Место доступа		Группа пользователей		Действие
	Локальная сеть ИБК СПбПУ		Все
	Интернет		Авторизованные пользователи СПбПУ
	Интернет		Анонимные пользователи

ВВЕДЕНИЕ
ГЛАВА 1. МЕТОДЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА
- 1.1. Применение методов обработки естественного языка.
- 1.2. Векторные представления
- 1.3. Извлечение именованных сущностей
- 1.4. Связывание именованных сущностей
  - 1.4.1. Связывание ИС с помощью векторных представлений
ГЛАВА 2. РАЗРАБОТКА АЛГОРИТМА СВЯЗЫВАНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ
ГЛАВА 3. РАЗРАБОТКА ПРОГРАММНЫХ СРЕДСТВ ОБРАБОТКИ ТЕКСТОВ
- 3.1. Требования к системе
- 3.2. Обучение модели
  - 3.2.1. Модель word2vec
  - 3.2.2 Модель TF-IDF
  - 3.2.3. Понижение размерности
  - 3.2.4. Оптимизации быстродействия
ГЛАВА 4. ИССЛЕДОВАНИЕ АЛГОРИТМА СВЯЗЫВАНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ
- 4.1. Эксперименты
- 4.2. Результаты
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
Приложение 1. Код программы

Статистика использования

Количество обращений: 3
За последние 30 дней: 0
Подробная статистика

Детальная информация

Аннотация

Права на использование объекта хранения

Оглавление

Статистика использования