С 17 марта 2020 г. для ресурсов (учебные, научные, материалы конференций, статьи из периодических изданий, авторефераты диссертаций, диссертации) ЭБ СПбПУ, обеспечивающих образовательный процесс, установлен особый режим использования. Обращаем внимание, что ВКР/НД не относятся к этой категории.

Детальная информация

Название: Полуавтоматическое извлечение часто задаваемых вопросов из обращений в службу поддержки: магистерская диссертация: 09.04.01
Авторы: Жук Павел Павлович
Научный руководитель: Ицыксон Владимир Михайлович
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2017
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Распознающие системы и устройства; Вычислительные машины электронные персональные — Процессоры текстовые; Информация — Обработка на вычислительных машинах; Моделирование; анализ текста; естественный язык
УДК: 004.383.8(043.3); 004.932.75'1(043.3)
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Код специальности ФГОС: 09.04.01
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/2/v17-4109
Права доступа: Свободный доступ из сети Интернет (чтение, печать, копирование)

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Часто задаваемые вопросы (ЧЗВ) содержат актуальную информацию о программном продукте и позволяют снизить нагрузку на отдел технической поддержки. Формирование ЧЗВ и поддержка их в актуальном состоянии требует существенных затрат от разработчика. Описываемый в данной работе способ позволяет в автоматическом режиме выбрать наиболее релевантные для добавления в ЧЗВ вопросно-ответные пары, которые затем передаются эксперту для редактирования перед публикацией. Для этого применяются методы интеллектуального анализа текста и тематического моделирования. Данный подход может быть применен и для других источников ИТ-дискуссий, таких как: форумы, вопросно-ответные системы. Практические результаты показывают, что используемый подход позволяет упростить формирование актуальных ЧЗВ.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • ВВЕДЕНИЕ
  • 1. Анализ методов извлечения часто задаваемых вопросов
    • 1.1. Существующие подходы к задаче извлечения ЧЗВ
    • 1.2. Тематическое моделирование
    • 1.3. Методы построения тематической модели
      • 1.3.1. Кластеризация и классификация
      • 1.3.2. Латентно-семантическое индексирование
      • 1.3.3. Вероятностный латентно-семантический анализ
      • 1.3.4. Латентное размещение Дирихле
      • 1.3.5. Другие методы
    • 1.4. Сравнение тематических моделей
    • 1.5. Резюме
  • 2. Постановка задачи извлечения вопросно-ответных пар
    • 2.1. Анализируемые данные
    • 2.2. Формулирование требований
    • 2.3. Решаемые задачи
    • 2.4. Резюме
  • 3. Разработка технологии извлечения вопросно-ответных пар
    • 3.1. Обзор этапов подхода
    • 3.2. Предобработка данных
      • 3.2.1. Эвристики отображения
      • 3.2.2. Эвристики тематического моделирования
      • 3.2.3. Фильтрация обращений
    • 3.3. Тематическое моделирование
      • 3.3.1. Скрытое размещение Дирихле
    • 3.4. Формирование пар вопрос-ответ
      • 3.4.1. Дополнительная фильтрация
      • 3.4.2. Определение вопросов и ответов
      • 3.4.3. Удаление расфокусированных тем
    • 3.5. Резюме
  • 4. Реализация алгоритма извлечения вопросно-ответных пар
    • 4.1. Используемые технологии
    • 4.2. Структура проекта
    • 4.3. Получение исходных данных
    • 4.4. Модель данных
    • 4.5. Взаимодействие с базой данных
    • 4.6. Реализация предобработки данных
      • 4.6.1. Фильтрация данных
      • 4.6.2. Эвристики предобработки
    • 4.7. Построение тематической модели
      • 4.7.1. Выбор реализации LDA
      • 4.7.2. Пакет org.jetbrains.zkb.lda
    • 4.8. Поиск вопросно-ответных пар
    • 4.9. Резюме
  • 5. Оценка эффективности разработанного подхода извлечения вопросно-ответных пар
    • 5.1. Определение доли найденных ВОП
    • 5.2. Оценка влияния эвристик и параметров на качество ВОП
    • 5.3. Экспертная оценка
    • 5.4. Резюме
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
  • ПРИЛОЖЕНИЕ А. Регулярные выражения
  • ПРИЛОЖЕНИЕ Б. Примеры вопросно-ответных пар

Статистика использования документа

stat Количество обращений: 473
За последние 30 дней: 0
Подробная статистика