Применение энтропийно-статистического метода к изучению особенностей естественного языка: магистерская диссертация: 02.04.03

Пигарева, Алена Владимировна

Details

	Table	Card	RUSMARC

Title:	Применение энтропийно-статистического метода к изучению особенностей естественного языка: магистерская диссертация: 02.04.03
Creators:	Пигарева Алена Владимировна
Scientific adviser:	Черкасова Танзиля Халитовна
Organization:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint:	Санкт-Петербург, 2017
Collection:	Выпускные квалификационные работы; Общая коллекция
Subjects:	Информация — Передача; Кодирование; естественный язык; статистические характеристики текста; выборочные функции распределения; атрибуция текстов
UDC:	004.627(043.3); 004.056.5(043.3)
Document type:	Master graduation qualification work
File type:	PDF
Language:	Russian
Level of education:	Master
Speciality code (FGOS):	02.04.03
Speciality group (FGOS):	020000 - Компьютерные и информационные науки
DOI:	10.18720/SPBPU/2/v17-1905
Rights:	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key:	RU\SPSTU\edoc\39511

Allowed Actions: –

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Тема магистерской диссертации относится к области изучения особенностей естественного языка энтропийно-статистическим методом. Исследовано распределение текстов по длинам слов, построены гистограммы длин слов. Сделаны выводы о том, что длина слова - элемент атрибуции. Предложен метод атрибуции текстов по минимальному расстоянию между выборочными функциями распределения текстов по длинам слов. Представлен алгоритм кодирования Хаффмана с расширенным алфавитом. Описан алгоритм построения расширенного алфавита. Вычислены средние длины кодовых слов, полученных в результате перекрестного кодирования. Предложены методы атрибуции текстов по величине средней длины кодового слова. Выполнена программная реализация предложенных методов атрибуции. Проведен сравнительный анализ точности предложенных методов и их аналогов.

Document access rights

	Network		User group		Action
	ILC SPbPU Local Network		All
	Internet		Authorized users SPbPU
	Internet		Anonymous

Реферат
Содержание
Введение
1 Теоретические основы разработки
- 1.1 Статистические характеристики
  - 1.1.1 Зачем они нужны
  - 1.1.2 Частотные характеристики
- 1.2 Выборочные функции распределения
- 1.3 Кодирование
  - 1.3.1 Понятие кодирования
  - 1.3.2 Алгоритм кодирования Хаффмана
  - 1.3.3 Алгоритм кодирования Хаффмана с расширенным алфавитом
2 Разработка методов атрибуции текстов
- 2.1 Существующие методы атрибуции
- 2.2 Метод атрибуции текстов по гистограммам длин слов
- 2.3 Метод атрибуции текстов через сжатие по алгоритму Хаффмана с расширенным алфавитом
  - 2.3.1 Обзор методов расширения алфавита
  - 2.3.2 Алгоритм составления расширенного алфавита
  - 2.3.3 Алгоритм атрибуции текстов
3 Реализация методов атрибуции текста
- 3.1 Класс text
- 3.2 Класс queue
- 3.3 Класс node
- 3.4 Класс tree
4 Результаты
- 4.1 Предварительная подготовка
- 4.2 Результаты применения статистического метода
- 4.3 Применение статистического метода для анализа произведений М. А. Шолохова
- 4.4 Результаты применения энтропийного метода
  - 4.4.1 Результаты работы первого алгоритма атрибуции текстов через сжатие
  - 4.4.2 Результаты работы второго алгоритма атрибуции текстов через сжатие
  - 4.4.3 Результаты работы третьего алгоритма атрибуции текстов через сжатие
- 4.5 Точность работы методов атрибуции
Заключение
Список использованных источников
Приложение 1

Usage statistics

Access count: 299
Last 30 days: 0
Detailed usage statistics

Details

Annotation

Document access rights

Table of Contents

Usage statistics