С 17 марта 2020 г. для ресурсов (учебные, научные, материалы конференций, статьи из периодических изданий, авторефераты диссертаций, диссертации) ЭБ СПбПУ, обеспечивающих образовательный процесс, установлен особый режим использования. Обращаем внимание, что ВКР/НД не относятся к этой категории.

Детальная информация

Название: Применение энтропийно-статистического метода к изучению особенностей естественного языка: магистерская диссертация: 02.04.03
Авторы: Пигарева Алена Владимировна
Научный руководитель: Черкасова Танзиля Халитовна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2017
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Информация — Передача; Кодирование; естественный язык; статистические характеристики текста; выборочные функции распределения; атрибуция текстов
УДК: 004.627(043.3); 004.056.5(043.3)
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Код специальности ФГОС: 02.04.03
Группа специальностей ФГОС: 020000 - Компьютерные и информационные науки
DOI: 10.18720/SPBPU/2/v17-1905
Права доступа: Свободный доступ из сети Интернет (чтение, печать, копирование)

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тема магистерской диссертации относится к области изучения особенностей естественного языка энтропийно-статистическим методом. Исследовано распределение текстов по длинам слов, построены гистограммы длин слов. Сделаны выводы о том, что длина слова - элемент атрибуции. Предложен метод атрибуции текстов по минимальному расстоянию между выборочными функциями распределения текстов по длинам слов. Представлен алгоритм кодирования Хаффмана с расширенным алфавитом. Описан алгоритм построения расширенного алфавита. Вычислены средние длины кодовых слов, полученных в результате перекрестного кодирования. Предложены методы атрибуции текстов по величине средней длины кодового слова. Выполнена программная реализация предложенных методов атрибуции. Проведен сравнительный анализ точности предложенных методов и их аналогов.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • Реферат
  • Содержание
  • Введение
  • 1 Теоретические основы разработки
    • 1.1 Статистические характеристики
      • 1.1.1 Зачем они нужны
      • 1.1.2 Частотные характеристики
    • 1.2 Выборочные функции распределения
    • 1.3 Кодирование
      • 1.3.1 Понятие кодирования
      • 1.3.2 Алгоритм кодирования Хаффмана
      • 1.3.3 Алгоритм кодирования Хаффмана с расширенным алфавитом
  • 2 Разработка методов атрибуции текстов
    • 2.1 Существующие методы атрибуции
    • 2.2 Метод атрибуции текстов по гистограммам длин слов
    • 2.3 Метод атрибуции текстов через сжатие по алгоритму Хаффмана с расширенным алфавитом
      • 2.3.1 Обзор методов расширения алфавита
      • 2.3.2 Алгоритм составления расширенного алфавита
      • 2.3.3 Алгоритм атрибуции текстов
  • 3 Реализация методов атрибуции текста
    • 3.1 Класс text
    • 3.2 Класс queue
    • 3.3 Класс node
    • 3.4 Класс tree
  • 4 Результаты
    • 4.1 Предварительная подготовка
    • 4.2 Результаты применения статистического метода
    • 4.3 Применение статистического метода для анализа произведений М. А. Шолохова
    • 4.4 Результаты применения энтропийного метода
      • 4.4.1 Результаты работы первого алгоритма атрибуции текстов через сжатие
      • 4.4.2 Результаты работы второго алгоритма атрибуции текстов через сжатие
      • 4.4.3 Результаты работы третьего алгоритма атрибуции текстов через сжатие
    • 4.5 Точность работы методов атрибуции
  • Заключение
  • Список использованных источников
  • Приложение 1

Статистика использования документа

stat Количество обращений: 293
За последние 30 дней: 0
Подробная статистика