С 17 марта 2020 г. для ресурсов (учебные, научные, материалы конференций, статьи из периодических изданий, авторефераты диссертаций, диссертации) ЭБ СПбПУ, обеспечивающих образовательный процесс, установлен особый режим использования. Обращаем внимание, что ВКР/НД не относятся к этой категории.

Детальная информация

Название: Разработка системы автоматического разбиения новостного потока на сюжеты с отслеживанием их развития: выпускная квалификационная работа магистра: 09.04.01 - Информатика и вычислительная техника ; 09.04.01_15 - Технологии проектирования системного и прикладного программного обеспечения
Авторы: Туренко Анастасия Алексеевна
Научный руководитель: Никитин Кирилл Вячеславович
Другие авторы: Новопашенный Андрей Гелиевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт промышленного менеджмента, экономики и торговли
Выходные сведения: Санкт-Петербург, 2019
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Информационные технологии; Интернет; Информация — Обработка на вычислительных машинах; обработка естественного языка; кластеризация новостей; граф эволюции событий
УДК: 004.738.5
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Код специальности ФГОС: 09.04.01
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2019/vr/vr19-727
Права доступа: Свободный доступ из сети Интернет (чтение, печать, копирование)

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Магистерская диссертация посвящена разработке системы автоматического разбиения новостного потока на сюжеты с отслеживанием их развития. В работе проведен обзор методов, применяемых к задаче моделирования эволюционных отношений между событиями. В ходе работы предложена архитектура системы, выполнена имплементация ее модулей и их взаимодействия. В аналитических компонентах системы реализованы, использованы и детально проанализированы: алгоритм кластеризации новостей в события и алгоритм обнаружения взаимосвязей между событиями. Экспериментальное исследование, параметрическая настройка и тестирование системы проводятся на реальных данных и подтверждают возможность и целесообразность использования описываемых в работе методов при решении аналогичных задач.

Master’s thesis is devoted to the development of a system for automatically dividing the news flow into stories with tracking their development. The paper reviews methods applied to the problem of modeling evolutionary relationships between events. In the course of the work, the system architecture was proposed, the implementation of its modules and their interaction was implemented. The analytical components of the system are implemented and used: the algorithm for clustering news into events and the algorithm for detecting relationships between events. The described methods are experimentally investigated. Experiments, tuning and testing are carried out on real data. They confirm the possibility of using the methods described in the work when solving a problem.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • ВВЕДЕНИЕ
  • 1. Обзор методов автоматической обработки новостей
    • 1.1. Конференция TDT
    • 1.2. Методы кластеризации
      • 1.2.1. Инкрементная кластеризация
      • 1.2.2. Методы на основании теории графов
      • 1.2.3. Семантическая кластеризация
      • 1.2.4. Тематическое моделирование
    • 1.3. Методы извлечения признаков
      • 1.3.1. Нормализация текста
      • 1.3.2. Векторное представление текста
      • 1.3.3. Извлечение ключевых слов
      • 1.3.4. Метрики сходства текста
    • 1.4. Выводы
  • 2. Постановка задачи
    • 2.1. Предметная область
      • 2.1.1. Концепция новостных событий
      • 2.1.2. Эволюция событий и развитие сюжета
    • 2.2. Требования
    • 2.3. Решаемые задачи
    • 2.4. Выводы
  • 3. Анализ методов моделирования эволюционных отношений
    • 3.1. Кластеризация историй в уникальные события
    • 3.2. Построение связей между событиями
      • 3.2.1. Метод на основе сходства содержания событий
      • 3.2.2. Построение связей с помощью ключевых слов
    • 3.3. Выводы
  • 4. Разработка системы
    • 4.1. Архитектура системы
    • 4.2. Реализация пакетной обработки
      • 4.2.1. Предобработка
      • 4.2.2. Извлечение признаков
      • 4.2.3. Кластеризация и построение модели эволюции событий
      • 4.2.4. Визуализация
    • 4.3. Реализация модуля последовательной обработки
      • 4.3.1. Объединение сюжетов с использованием скользящего окна
      • 4.3.2. Сопоставление сюжетов из непересекающихся промежутов
    • 4.4. Выводы
  • 5. Экспериментальное исследование и анализ результатов
    • 5.1. Метрики оценивания
    • 5.2. Эксперимент с кластеризацией новостей в события
      • 5.2.1. Разметка
      • 5.2.2. Настройка параметров
      • 5.2.3. Оценка и анализ результатов
    • 5.3. Эксперимент с построением связей между событиями
      • 5.3.1. Разметка
      • 5.3.2. Настройка параметров
      • 5.3.3. Оценка и анализ результатов
    • 5.4. Выводы
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
  • ПРИЛОЖЕНИЕ. ЛИСТИНГИ ИСХОДНОГО КОДА

Статистика использования

stat Количество обращений: 46
За последние 30 дней: 0
Подробная статистика