Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Тема магистерской диссертации относится к области изучения особенностей естественного языка энтропийно-статистическим методом. Исследовано распределение текстов по длинам слов, построены гистограммы длин слов. Сделаны выводы о том, что длина слова - элемент атрибуции. Предложен метод атрибуции текстов по минимальному расстоянию между выборочными функциями распределения текстов по длинам слов. Представлен алгоритм кодирования Хаффмана с расширенным алфавитом. Описан алгоритм построения расширенного алфавита. Вычислены средние длины кодовых слов, полученных в результате перекрестного кодирования. Предложены методы атрибуции текстов по величине средней длины кодового слова. Выполнена программная реализация предложенных методов атрибуции. Проведен сравнительный анализ точности предложенных методов и их аналогов.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Table of Contents
- Реферат
- Содержание
- Введение
- 1 Теоретические основы разработки
- 1.1 Статистические характеристики
- 1.1.1 Зачем они нужны
- 1.1.2 Частотные характеристики
- 1.2 Выборочные функции распределения
- 1.3 Кодирование
- 1.3.1 Понятие кодирования
- 1.3.2 Алгоритм кодирования Хаффмана
- 1.3.3 Алгоритм кодирования Хаффмана с расширенным алфавитом
- 1.1 Статистические характеристики
- 2 Разработка методов атрибуции текстов
- 2.1 Существующие методы атрибуции
- 2.2 Метод атрибуции текстов по гистограммам длин слов
- 2.3 Метод атрибуции текстов через сжатие по алгоритму Хаффмана с расширенным алфавитом
- 2.3.1 Обзор методов расширения алфавита
- 2.3.2 Алгоритм составления расширенного алфавита
- 2.3.3 Алгоритм атрибуции текстов
- 3 Реализация методов атрибуции текста
- 3.1 Класс text
- 3.2 Класс queue
- 3.3 Класс node
- 3.4 Класс tree
- 4 Результаты
- 4.1 Предварительная подготовка
- 4.2 Результаты применения статистического метода
- 4.3 Применение статистического метода для анализа произведений М. А. Шолохова
- 4.4 Результаты применения энтропийного метода
- 4.4.1 Результаты работы первого алгоритма атрибуции текстов через сжатие
- 4.4.2 Результаты работы второго алгоритма атрибуции текстов через сжатие
- 4.4.3 Результаты работы третьего алгоритма атрибуции текстов через сжатие
- 4.5 Точность работы методов атрибуции
- Заключение
- Список использованных источников
- Приложение 1
Usage statistics
Access count: 299
Last 30 days: 0 Detailed usage statistics |