Детальная информация

Пигарева, Алена Владимировна. Применение энтропийно-статистического метода к изучению особенностей естественного языка [Электронный ресурс]: магистерская диссертация: 02.04.03 / А. В. Пигарева; Санкт-Петербургский политехнический университет Петра Великого, Институт компьютерных наук и технологий ; науч. рук. Т. Х. Черкасова. — Электрон. текстовые дан. (1 файл : 1,85 МБ). — Санкт-Петербург, 2017. — Загл. с титул. экрана. — Свободный доступ из сети Интернет (чтение, печать, копирование). — Adobe Acrobat Reader 7.0. — <URL:http://elib.spbstu.ru/dl/2/v17-1905.pdf>. — <URL:http://doi.org/10.18720/SPBPU/2/v17-1905>.

Дата создания записи: 06.07.2017

Тематика: Информация — Передача; Кодирование; естественный язык; статистические характеристики текста; выборочные функции распределения; атрибуция текстов

УДК: 004.627(043.3); 004.056.5(043.3)

Коллекции: Выпускные квалификационные работы; Общая коллекция

Ссылки: DOI

Разрешенные действия: Прочитать Загрузить (1,9 Мб) Для чтения документа необходим Flash Player

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тема магистерской диссертации относится к области изучения особенностей естественного языка энтропийно-статистическим методом. Исследовано распределение текстов по длинам слов, построены гистограммы длин слов. Сделаны выводы о том, что длина слова - элемент атрибуции. Предложен метод атрибуции текстов по минимальному расстоянию между выборочными функциями распределения текстов по длинам слов. Представлен алгоритм кодирования Хаффмана с расширенным алфавитом. Описан алгоритм построения расширенного алфавита. Вычислены средние длины кодовых слов, полученных в результате перекрестного кодирования. Предложены методы атрибуции текстов по величине средней длины кодового слова. Выполнена программная реализация предложенных методов атрибуции. Проведен сравнительный анализ точности предложенных методов и их аналогов.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
-> Интернет Все Прочитать Печать Загрузить

Оглавление

  • Реферат
  • Содержание
  • Введение
  • 1 Теоретические основы разработки
    • 1.1 Статистические характеристики
      • 1.1.1 Зачем они нужны
      • 1.1.2 Частотные характеристики
    • 1.2 Выборочные функции распределения
    • 1.3 Кодирование
      • 1.3.1 Понятие кодирования
      • 1.3.2 Алгоритм кодирования Хаффмана
      • 1.3.3 Алгоритм кодирования Хаффмана с расширенным алфавитом
  • 2 Разработка методов атрибуции текстов
    • 2.1 Существующие методы атрибуции
    • 2.2 Метод атрибуции текстов по гистограммам длин слов
    • 2.3 Метод атрибуции текстов через сжатие по алгоритму Хаффмана с расширенным алфавитом
      • 2.3.1 Обзор методов расширения алфавита
      • 2.3.2 Алгоритм составления расширенного алфавита
      • 2.3.3 Алгоритм атрибуции текстов
  • 3 Реализация методов атрибуции текста
    • 3.1 Класс text
    • 3.2 Класс queue
    • 3.3 Класс node
    • 3.4 Класс tree
  • 4 Результаты
    • 4.1 Предварительная подготовка
    • 4.2 Результаты применения статистического метода
    • 4.3 Применение статистического метода для анализа произведений М. А. Шолохова
    • 4.4 Результаты применения энтропийного метода
      • 4.4.1 Результаты работы первого алгоритма атрибуции текстов через сжатие
      • 4.4.2 Результаты работы второго алгоритма атрибуции текстов через сжатие
      • 4.4.3 Результаты работы третьего алгоритма атрибуции текстов через сжатие
    • 4.5 Точность работы методов атрибуции
  • Заключение
  • Список использованных источников
  • Приложение 1

Статистика использования документа

stat Количество обращений: 226
За последние 30 дней: 6
Подробная статистика