Таблица | Карточка | RUSMARC | |
Разрешенные действия: –
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа: Анонимные пользователи Сеть: Интернет |
Аннотация
Тема магистерской диссертации относится к области изучения особенностей естественного языка энтропийно-статистическим методом. Исследовано распределение текстов по длинам слов, построены гистограммы длин слов. Сделаны выводы о том, что длина слова - элемент атрибуции. Предложен метод атрибуции текстов по минимальному расстоянию между выборочными функциями распределения текстов по длинам слов. Представлен алгоритм кодирования Хаффмана с расширенным алфавитом. Описан алгоритм построения расширенного алфавита. Вычислены средние длины кодовых слов, полученных в результате перекрестного кодирования. Предложены методы атрибуции текстов по величине средней длины кодового слова. Выполнена программная реализация предложенных методов атрибуции. Проведен сравнительный анализ точности предложенных методов и их аналогов.
Права на использование объекта хранения
Место доступа | Группа пользователей | Действие | ||||
---|---|---|---|---|---|---|
Локальная сеть ИБК СПбПУ | Все | |||||
Интернет | Авторизованные пользователи СПбПУ | |||||
Интернет | Анонимные пользователи |
Оглавление
- Реферат
- Содержание
- Введение
- 1 Теоретические основы разработки
- 1.1 Статистические характеристики
- 1.1.1 Зачем они нужны
- 1.1.2 Частотные характеристики
- 1.2 Выборочные функции распределения
- 1.3 Кодирование
- 1.3.1 Понятие кодирования
- 1.3.2 Алгоритм кодирования Хаффмана
- 1.3.3 Алгоритм кодирования Хаффмана с расширенным алфавитом
- 1.1 Статистические характеристики
- 2 Разработка методов атрибуции текстов
- 2.1 Существующие методы атрибуции
- 2.2 Метод атрибуции текстов по гистограммам длин слов
- 2.3 Метод атрибуции текстов через сжатие по алгоритму Хаффмана с расширенным алфавитом
- 2.3.1 Обзор методов расширения алфавита
- 2.3.2 Алгоритм составления расширенного алфавита
- 2.3.3 Алгоритм атрибуции текстов
- 3 Реализация методов атрибуции текста
- 3.1 Класс text
- 3.2 Класс queue
- 3.3 Класс node
- 3.4 Класс tree
- 4 Результаты
- 4.1 Предварительная подготовка
- 4.2 Результаты применения статистического метода
- 4.3 Применение статистического метода для анализа произведений М. А. Шолохова
- 4.4 Результаты применения энтропийного метода
- 4.4.1 Результаты работы первого алгоритма атрибуции текстов через сжатие
- 4.4.2 Результаты работы второго алгоритма атрибуции текстов через сжатие
- 4.4.3 Результаты работы третьего алгоритма атрибуции текстов через сжатие
- 4.5 Точность работы методов атрибуции
- Заключение
- Список использованных источников
- Приложение 1
Статистика использования
Количество обращений: 299
За последние 30 дней: 0 Подробная статистика |