Details

Title: Разработка системы автоматического разбиения новостного потока на сюжеты с отслеживанием их развития: выпускная квалификационная работа магистра: 09.04.01 - Информатика и вычислительная техника ; 09.04.01_15 - Технологии проектирования системного и прикладного программного обеспечения
Creators: Туренко Анастасия Алексеевна
Scientific adviser: Никитин Кирилл Вячеславович
Other creators: Новопашенный Андрей Гелиевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2019
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: Информационные технологии; Интернет; Информация — Обработка на вычислительных машинах; обработка естественного языка; кластеризация новостей; граф эволюции событий
UDC: 004.738.5
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Speciality code (FGOS): 09.04.01
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2019/vr/vr19-727
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Магистерская диссертация посвящена разработке системы автоматического разбиения новостного потока на сюжеты с отслеживанием их развития. В работе проведен обзор методов, применяемых к задаче моделирования эволюционных отношений между событиями. В ходе работы предложена архитектура системы, выполнена имплементация ее модулей и их взаимодействия. В аналитических компонентах системы реализованы, использованы и детально проанализированы: алгоритм кластеризации новостей в события и алгоритм обнаружения взаимосвязей между событиями. Экспериментальное исследование, параметрическая настройка и тестирование системы проводятся на реальных данных и подтверждают возможность и целесообразность использования описываемых в работе методов при решении аналогичных задач.

Master’s thesis is devoted to the development of a system for automatically dividing the news flow into stories with tracking their development. The paper reviews methods applied to the problem of modeling evolutionary relationships between events. In the course of the work, the system architecture was proposed, the implementation of its modules and their interaction was implemented. The analytical components of the system are implemented and used: the algorithm for clustering news into events and the algorithm for detecting relationships between events. The described methods are experimentally investigated. Experiments, tuning and testing are carried out on real data. They confirm the possibility of using the methods described in the work when solving a problem.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users Read Print Download
-> Internet Anonymous

Table of Contents

  • ВВЕДЕНИЕ
  • 1. Обзор методов автоматической обработки новостей
    • 1.1. Конференция TDT
    • 1.2. Методы кластеризации
      • 1.2.1. Инкрементная кластеризация
      • 1.2.2. Методы на основании теории графов
      • 1.2.3. Семантическая кластеризация
      • 1.2.4. Тематическое моделирование
    • 1.3. Методы извлечения признаков
      • 1.3.1. Нормализация текста
      • 1.3.2. Векторное представление текста
      • 1.3.3. Извлечение ключевых слов
      • 1.3.4. Метрики сходства текста
    • 1.4. Выводы
  • 2. Постановка задачи
    • 2.1. Предметная область
      • 2.1.1. Концепция новостных событий
      • 2.1.2. Эволюция событий и развитие сюжета
    • 2.2. Требования
    • 2.3. Решаемые задачи
    • 2.4. Выводы
  • 3. Анализ методов моделирования эволюционных отношений
    • 3.1. Кластеризация историй в уникальные события
    • 3.2. Построение связей между событиями
      • 3.2.1. Метод на основе сходства содержания событий
      • 3.2.2. Построение связей с помощью ключевых слов
    • 3.3. Выводы
  • 4. Разработка системы
    • 4.1. Архитектура системы
    • 4.2. Реализация пакетной обработки
      • 4.2.1. Предобработка
      • 4.2.2. Извлечение признаков
      • 4.2.3. Кластеризация и построение модели эволюции событий
      • 4.2.4. Визуализация
    • 4.3. Реализация модуля последовательной обработки
      • 4.3.1. Объединение сюжетов с использованием скользящего окна
      • 4.3.2. Сопоставление сюжетов из непересекающихся промежутов
    • 4.4. Выводы
  • 5. Экспериментальное исследование и анализ результатов
    • 5.1. Метрики оценивания
    • 5.2. Эксперимент с кластеризацией новостей в события
      • 5.2.1. Разметка
      • 5.2.2. Настройка параметров
      • 5.2.3. Оценка и анализ результатов
    • 5.3. Эксперимент с построением связей между событиями
      • 5.3.1. Разметка
      • 5.3.2. Настройка параметров
      • 5.3.3. Оценка и анализ результатов
    • 5.4. Выводы
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
  • ПРИЛОЖЕНИЕ. ЛИСТИНГИ ИСХОДНОГО КОДА

Usage statistics

stat Access count: 46
Last 30 days: 0
Detailed usage statistics