Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Магистерская диссертация посвящена разработке системы автоматического разбиения новостного потока на сюжеты с отслеживанием их развития. В работе проведен обзор методов, применяемых к задаче моделирования эволюционных отношений между событиями. В ходе работы предложена архитектура системы, выполнена имплементация ее модулей и их взаимодействия. В аналитических компонентах системы реализованы, использованы и детально проанализированы: алгоритм кластеризации новостей в события и алгоритм обнаружения взаимосвязей между событиями. Экспериментальное исследование, параметрическая настройка и тестирование системы проводятся на реальных данных и подтверждают возможность и целесообразность использования описываемых в работе методов при решении аналогичных задач.
Master’s thesis is devoted to the development of a system for automatically dividing the news flow into stories with tracking their development. The paper reviews methods applied to the problem of modeling evolutionary relationships between events. In the course of the work, the system architecture was proposed, the implementation of its modules and their interaction was implemented. The analytical components of the system are implemented and used: the algorithm for clustering news into events and the algorithm for detecting relationships between events. The described methods are experimentally investigated. Experiments, tuning and testing are carried out on real data. They confirm the possibility of using the methods described in the work when solving a problem.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Table of Contents
- ВВЕДЕНИЕ
- 1. Обзор методов автоматической обработки новостей
- 1.1. Конференция TDT
- 1.2. Методы кластеризации
- 1.2.1. Инкрементная кластеризация
- 1.2.2. Методы на основании теории графов
- 1.2.3. Семантическая кластеризация
- 1.2.4. Тематическое моделирование
- 1.3. Методы извлечения признаков
- 1.3.1. Нормализация текста
- 1.3.2. Векторное представление текста
- 1.3.3. Извлечение ключевых слов
- 1.3.4. Метрики сходства текста
- 1.4. Выводы
- 2. Постановка задачи
- 2.1. Предметная область
- 2.1.1. Концепция новостных событий
- 2.1.2. Эволюция событий и развитие сюжета
- 2.2. Требования
- 2.3. Решаемые задачи
- 2.4. Выводы
- 2.1. Предметная область
- 3. Анализ методов моделирования эволюционных отношений
- 3.1. Кластеризация историй в уникальные события
- 3.2. Построение связей между событиями
- 3.2.1. Метод на основе сходства содержания событий
- 3.2.2. Построение связей с помощью ключевых слов
- 3.3. Выводы
- 4. Разработка системы
- 4.1. Архитектура системы
- 4.2. Реализация пакетной обработки
- 4.2.1. Предобработка
- 4.2.2. Извлечение признаков
- 4.2.3. Кластеризация и построение модели эволюции событий
- 4.2.4. Визуализация
- 4.3. Реализация модуля последовательной обработки
- 4.3.1. Объединение сюжетов с использованием скользящего окна
- 4.3.2. Сопоставление сюжетов из непересекающихся промежутов
- 4.4. Выводы
- 5. Экспериментальное исследование и анализ результатов
- 5.1. Метрики оценивания
- 5.2. Эксперимент с кластеризацией новостей в события
- 5.2.1. Разметка
- 5.2.2. Настройка параметров
- 5.2.3. Оценка и анализ результатов
- 5.3. Эксперимент с построением связей между событиями
- 5.3.1. Разметка
- 5.3.2. Настройка параметров
- 5.3.3. Оценка и анализ результатов
- 5.4. Выводы
- ЗАКЛЮЧЕНИЕ
- СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
- ПРИЛОЖЕНИЕ. ЛИСТИНГИ ИСХОДНОГО КОДА
Usage statistics
Access count: 61
Last 30 days: 0 Detailed usage statistics |