С 17 марта 2020 г. для образовательных ресурсов Электронной библиотеки СПбПУ установлен особый режим их использования

Details

Title: Полуавтоматическое извлечение часто задаваемых вопросов из обращений в службу поддержки: магистерская диссертация: 09.04.01
Creators: Жук Павел Павлович
Scientific adviser: Ицыксон Владимир Михайлович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2017
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: Распознающие системы и устройства; Вычислительные машины электронные персональные — Процессоры текстовые; Информация — Обработка на вычислительных машинах; Моделирование; анализ текста; естественный язык
UDC: 004.383.8(043.3); 004.932.75'1(043.3)
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Speciality code (FGOS): 09.04.01
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/2/v17-4109
Rights: Свободный доступ из сети Интернет (чтение, печать, копирование)

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Часто задаваемые вопросы (ЧЗВ) содержат актуальную информацию о программном продукте и позволяют снизить нагрузку на отдел технической поддержки. Формирование ЧЗВ и поддержка их в актуальном состоянии требует существенных затрат от разработчика. Описываемый в данной работе способ позволяет в автоматическом режиме выбрать наиболее релевантные для добавления в ЧЗВ вопросно-ответные пары, которые затем передаются эксперту для редактирования перед публикацией. Для этого применяются методы интеллектуального анализа текста и тематического моделирования. Данный подход может быть применен и для других источников ИТ-дискуссий, таких как: форумы, вопросно-ответные системы. Практические результаты показывают, что используемый подход позволяет упростить формирование актуальных ЧЗВ.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users Read Print Download
-> Internet Anonymous

Table of Contents

  • ВВЕДЕНИЕ
  • 1. Анализ методов извлечения часто задаваемых вопросов
    • 1.1. Существующие подходы к задаче извлечения ЧЗВ
    • 1.2. Тематическое моделирование
    • 1.3. Методы построения тематической модели
      • 1.3.1. Кластеризация и классификация
      • 1.3.2. Латентно-семантическое индексирование
      • 1.3.3. Вероятностный латентно-семантический анализ
      • 1.3.4. Латентное размещение Дирихле
      • 1.3.5. Другие методы
    • 1.4. Сравнение тематических моделей
    • 1.5. Резюме
  • 2. Постановка задачи извлечения вопросно-ответных пар
    • 2.1. Анализируемые данные
    • 2.2. Формулирование требований
    • 2.3. Решаемые задачи
    • 2.4. Резюме
  • 3. Разработка технологии извлечения вопросно-ответных пар
    • 3.1. Обзор этапов подхода
    • 3.2. Предобработка данных
      • 3.2.1. Эвристики отображения
      • 3.2.2. Эвристики тематического моделирования
      • 3.2.3. Фильтрация обращений
    • 3.3. Тематическое моделирование
      • 3.3.1. Скрытое размещение Дирихле
    • 3.4. Формирование пар вопрос-ответ
      • 3.4.1. Дополнительная фильтрация
      • 3.4.2. Определение вопросов и ответов
      • 3.4.3. Удаление расфокусированных тем
    • 3.5. Резюме
  • 4. Реализация алгоритма извлечения вопросно-ответных пар
    • 4.1. Используемые технологии
    • 4.2. Структура проекта
    • 4.3. Получение исходных данных
    • 4.4. Модель данных
    • 4.5. Взаимодействие с базой данных
    • 4.6. Реализация предобработки данных
      • 4.6.1. Фильтрация данных
      • 4.6.2. Эвристики предобработки
    • 4.7. Построение тематической модели
      • 4.7.1. Выбор реализации LDA
      • 4.7.2. Пакет org.jetbrains.zkb.lda
    • 4.8. Поиск вопросно-ответных пар
    • 4.9. Резюме
  • 5. Оценка эффективности разработанного подхода извлечения вопросно-ответных пар
    • 5.1. Определение доли найденных ВОП
    • 5.2. Оценка влияния эвристик и параметров на качество ВОП
    • 5.3. Экспертная оценка
    • 5.4. Резюме
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
  • ПРИЛОЖЕНИЕ А. Регулярные выражения
  • ПРИЛОЖЕНИЕ Б. Примеры вопросно-ответных пар

Document usage statistics

stat Document access count: 473
Last 30 days: 9
Detailed usage statistics