Details

Title: Применение энтропийно-статистического метода к изучению особенностей естественного языка: магистерская диссертация: 02.04.03
Creators: Пигарева Алена Владимировна
Scientific adviser: Черкасова Танзиля Халитовна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2017
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: Информация — Передача; Кодирование; естественный язык; статистические характеристики текста; выборочные функции распределения; атрибуция текстов
UDC: 004.627(043.3); 004.056.5(043.3)
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 02.04.03
Speciality group (FGOS): 020000 - Компьютерные и информационные науки
DOI: 10.18720/SPBPU/2/v17-1905
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: RU\SPSTU\edoc\39511

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Тема магистерской диссертации относится к области изучения особенностей естественного языка энтропийно-статистическим методом. Исследовано распределение текстов по длинам слов, построены гистограммы длин слов. Сделаны выводы о том, что длина слова - элемент атрибуции. Предложен метод атрибуции текстов по минимальному расстоянию между выборочными функциями распределения текстов по длинам слов. Представлен алгоритм кодирования Хаффмана с расширенным алфавитом. Описан алгоритм построения расширенного алфавита. Вычислены средние длины кодовых слов, полученных в результате перекрестного кодирования. Предложены методы атрибуции текстов по величине средней длины кодового слова. Выполнена программная реализация предложенных методов атрибуции. Проведен сравнительный анализ точности предложенных методов и их аналогов.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Table of Contents

  • Реферат
  • Содержание
  • Введение
  • 1 Теоретические основы разработки
    • 1.1 Статистические характеристики
      • 1.1.1 Зачем они нужны
      • 1.1.2 Частотные характеристики
    • 1.2 Выборочные функции распределения
    • 1.3 Кодирование
      • 1.3.1 Понятие кодирования
      • 1.3.2 Алгоритм кодирования Хаффмана
      • 1.3.3 Алгоритм кодирования Хаффмана с расширенным алфавитом
  • 2 Разработка методов атрибуции текстов
    • 2.1 Существующие методы атрибуции
    • 2.2 Метод атрибуции текстов по гистограммам длин слов
    • 2.3 Метод атрибуции текстов через сжатие по алгоритму Хаффмана с расширенным алфавитом
      • 2.3.1 Обзор методов расширения алфавита
      • 2.3.2 Алгоритм составления расширенного алфавита
      • 2.3.3 Алгоритм атрибуции текстов
  • 3 Реализация методов атрибуции текста
    • 3.1 Класс text
    • 3.2 Класс queue
    • 3.3 Класс node
    • 3.4 Класс tree
  • 4 Результаты
    • 4.1 Предварительная подготовка
    • 4.2 Результаты применения статистического метода
    • 4.3 Применение статистического метода для анализа произведений М. А. Шолохова
    • 4.4 Результаты применения энтропийного метода
      • 4.4.1 Результаты работы первого алгоритма атрибуции текстов через сжатие
      • 4.4.2 Результаты работы второго алгоритма атрибуции текстов через сжатие
      • 4.4.3 Результаты работы третьего алгоритма атрибуции текстов через сжатие
    • 4.5 Точность работы методов атрибуции
  • Заключение
  • Список использованных источников
  • Приложение 1

Usage statistics

stat Access count: 299
Last 30 days: 0
Detailed usage statistics