Детальная информация

Название: Разработка программной реализации системы понимания естественного языка на основе нейронных сетей: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Авторы: Аль Али Моаз
Научный руководитель: Дробинцев Павел Дмитриевич
Другие авторы: Локшина Екатерина Геннадиевна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: понимания естественного языка; нейронные сети; RNNs; CNNs; совместная модель; заполнение слотов; определение цели; natural language understanding; neural networks; joint model; slot filling; intent detection
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-901
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\6468

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В этой работе было исследовано совместное использова- ние гибридных сверточных сетей и сетей LSTM (Long short-term memory) для решения задач заполнения слотов и определения цели при анализе предложений естественного языка. Была пред- ложена новая модель, комбинирующая сверточные нейронные сети и рекуррентные нейронные сети, в рамках которой сверточ- ные нейронные сети обнаруживают сложные признаки во вход- ных последовательностях, методом применения фильтров к кад- рам этих входов, а рекуррентные нейронные сети отслеживают долгосрочные и краткосрочные зависимости во входных после- довательностях. В рамках работы также было проанализировано и обосновано построение модели для совместного заполнения слотов и определения цели, поскольку считается, что между це- лью и семантическими слотами существует тесная связь. Сов- местная модель может отражать это отношение, анализировать его и использовать для улучшения результатов прогнозирования. В работе используются наборы данных ATIS (Airline Travel Infor- mation System) и Snips (голосовая платформа AI для подключен- ных устройств), для измерения производительности и точности моделей и сравнения их с результатами других моделей. По ре- зультатам реализации работы были получены лучшие значения метрики f1-score в задаче заполнении слотов для набора данных ATIS (98,21) и близкие к лучшим значениям точности в задаче определении цели для наборов данных ATIS (98,12) и SNIPs (98,42) по сравнению с результатами, найденными в литературе.

We investigate the usage of hybrid convolutional and long short-term memory networks for joint slot filling and intent detection in natural language understanding. We propose a novel model that combines between convolutional neural networks, for their ability to detect complex features in the input sequences by applying filters to frames of these inputs, and recurrent neural networks taking in account the fact that they can keep track of the long and short term dependen- cies in the input sequences. We choose to build a model for joint slot filling and intent detection, because we believe that there is a strong relation between the intent and the semantic slots. A joint model can reflect this relation, figure it out and make use of it to enhance the prediction results. We use the Airline Travel Information System (ATIS) and Snips (an AI voice platform for connected devices) da- tasets to measure the performance of our models and compare them with the results of other models as these datasets have become the most popular datasets for natural language understanding problem. By the results of realization this work, we got the best f1-score values in slot filling task for ATIS dataset (98.21) and close to the best accuracy values in intent detection task for ATIS (98.12) and SNIPs (98.42) da- tasets.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • 1 ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ
    • 1.1 Определения
    • 1.2 Нейронные сети
      • 1.2.1 Прямые нейронные сети
      • 1.2.2 Однослойный персептрон (Single layer perceptron)
      • 1.2.3 Функции активации
      • 1.2.4 Многослойный персептрон
      • 1.2.5 Обучение и регуляризация
        • 1.2.5.1 Функция стоимости (cost function)
        • 1.2.5.2 Обратный проход (Backward pass)
      • 1.2.6 Обобщение и компромисс дисперсии смещения
      • 1.2.7 Cверточные нейронные сети (Convolutional neural networks CNNs)
      • 1.2.8 Рекуррентные нейронные сети (Recurrent neural networks RNNs)
      • 1.2.9 Векторное представление слов (Word embedding)
    • 1.3 Методы оценки (Evaluation methods)
      • 1.3.1 Матрица смешения (Confusion matrix)
      • 1.3.2 Метрики оценки (Evaluation metrics)
    • 1.4 Диалоговые системы (Dialogue systems (DSs))
    • 1.5 Классификация диалоговых систем по методу управления диалогом
      • 1.5.1 Системы на основе конечных состояний
      • 1.5.2 Системы на основе фреймов
      • 1.5.3 Системы на основе планов
    • 1.6 Классификация диалоговых систем по их применениям
      • 1.6.1 Системы ориентированные на задачи
      • 1.6.2 Не ориентированные на задачи диалоговые системы
    • 1.7 Понимание естественного языка
      • 1.7.1 Предварительная обработка и выбор признаков
      • 1.7.2 Заполнение слотов
      • 1.7.3 Определение цели и классификация доменов
      • 1.7.4 Совместные модели для определения цели и заполнения слотов
    • 1.8 Выводы
  • 2 АРХИТЕКТУРА РАСПРЕДЕЛЕННОГО ПРОГРАММНОГО СРЕДСТВА
    • 2.1 Понимание бизнеса
    • 2.2 Понимание данных
    • 2.3 Формат IOB
    • 2.4 Наборы данных
    • 2.5 Подготовка данных
      • 2.5.1 Предобработка слов
      • 2.5.2 Тренировочный и тестовый сплиты
    • 2.6 Моделирование
      • 2.6.1 Схема ввода-вывода для совместного заполнения слотов и определения цели
        • 2.6.1.1 Добавление только цели к вводу и выводу
        • 2.6.1.2 Добавление и вставка цели в ввод и вывод
      • 2.6.2 Слои модели
        • 2.6.2.1 Векторное представление слов
        • 2.6.2.2 Конкатенация CNN с векторным представлением слов
        • 2.6.2.3 Рекуррентные нейронные сети
      • 2.6.3 Различные предлагаемые конструкции
      • 2.6.4 Параметры и Гиперпараметры
    • 2.7 Метрики
  • 3 РЕАЛИЗАЦИЯ
    • 3.1 Инструменты
      • 3.1.1 Jupyter notebook (блокнот Юпитера)
      • 3.1.2 Python
        • 3.1.2.1 Numpy
        • 3.1.2.2 TensorFlow
        • 3.1.2.3 Keras
        • 3.1.2.4 Google Colab
        • 3.1.2.5 Microsoft Azure notebooks
    • 3.2 GPU and CPU
    • 3.3 Реализация программы
  • 4 Результаты применения распределенной системы
    • 4.1 Заполнение слотов
    • 4.2 Определение цели
    • 4.3 Сравнение с другими подходами

Статистика использования

stat Количество обращений: 10
За последние 30 дней: 0
Подробная статистика