Исследование эффективности применения нейронных сетей в задаче перевода естественного языка в SQL: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»

Лащенов, Евгений Игоревич

Вход в систему

Детальная информация

	Таблица	Карточка	RUSMARC

Название:	Исследование эффективности применения нейронных сетей в задаче перевода естественного языка в SQL: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Авторы:	Лащенов Евгений Игоревич
Научный руководитель:	Малеев Олег Геннадьевич
Другие авторы:	Локшина Екатерина Геннадиевна
Организация:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения:	Санкт-Петербург, 2021
Коллекция:	Выпускные квалификационные работы; Общая коллекция
Тематика:	NL2SQL; машинное обучение; нейронные сети; GPT-3; BERT; T5; естественная обработка языка; рекуррентные нейронные сети; трансформер; machine learning; neural networks; natural language processing; recurrent neural networks; transformer
Тип документа:	Выпускная квалификационная работа бакалавра
Тип файла:	PDF
Язык:	Русский
Уровень высшего образования:	Бакалавриат
Код специальности ФГОС:	09.03.04
Группа специальностей ФГОС:	090000 - Информатика и вычислительная техника
Ссылки:	Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI:	10.18720/SPBPU/3/2021/vr/vr21-591
Права доступа:	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи:	ru\spstu\vkr\12725

Разрешенные действия: –

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В данной работе рассматривается решение задачи перевода естественного языка в SQL с помощью современных архитектур GPT-3, BERT, T5. Проводится сравнительный анализ этих архитектур при использовании двух подходов: с использованием sketch-based архитектуры, при которой конечный запрос не генерируется полностью, а заполняются «слоты» и с генерацией конечного запроса на SQL text-to-text. Для решения полученной задачи исследования эффективности различных нейронных сетей для начала были рассмотрены существующие решения. Были подробно изучены устройства архитектур GPT-3, T5 и BERT для последующей интеграции в модели для решения задачи NL2SQL. Для sketch-based подхода за бейзлайн была взята модель SQLova, которая была затем переписана для внесения дополнительных изменений. Были обучены модели с использованием GPT-3, T5 и проведен сравнительный анализ результатов. В text-to-text подходе за основную использовалась модель T5, которая без дополнительных решений показала сразу хороший результат. Далее она была улучшена с помощью gated extraction network, генерацией вторичных данных. Такая же модель была обучена с помощью архитектуры GPT-3, проведено сравнение результатов.

This paper considers the solution of the problem of natural language translation in SQL using modern architectures GPT-3, BERT, T5.A comparative analysis of these architectures is carried out using two approaches: using a sketch-based architecture, in which the final query is not generated completely, but the "slots" are filled, and with the generation of the final query in SQL text-to-text. To solve the obtained problem of studying the effectiveness of various neural networks, we first considered the existing solutions. The devices of the GPT-3, T5, and BERT architectures were studied in detail for subsequent integration into models for solving the NL2SQL problem. For the sketch-based approach, the SQLova model was taken as the baseline, which was then rewritten to make additional changes. Models were trained using GPT-3, T5 and a comparative analysis of the results was carried out. In the text-to-text approach, the T5 model was used for the main one, which immediately showed a good result without additional solutions. It was further improved with the gated extraction network, the generation of secondary data. The same model was trained using the GPT-3 architecture, and the results were compared.

Права на использование объекта хранения

	Место доступа		Группа пользователей		Действие
	Локальная сеть ИБК СПбПУ		Все
	Интернет		Авторизованные пользователи СПбПУ
	Интернет		Анонимные пользователи

ВВЕДЕНИЕ
ГЛАВА 1. ОСНОВНЫЕ КОНЦЕПЦИИ, ПОДХОДЫ И АРХИТЕКТУРЫ, ИСПОЛЬЗУЕМЫЕ В ЗАДАЧАХ NL2SQL И NLP
- 1.1. Понятия и подходы в NL2SQL
- 1.2. Подходы к решению задачи NL2SQL
  - 1.2.1. Модель Seq2SQL
  - 1.2.2. Модель SQLNet
  - 1.2.3. Модель TypeSQL
  - 1.2.4. Модель X-SQL
- 1.3. Архитектуры BERT, GPT-3 и T5
  - 1.3.1. Transformer и механизм self-attention
  - 1.3.2. Bidirectional Encoder Representations from Transformers
  - 1.3.3. Generative Pre-trained Transformer (GPT-3)
  - 1.3.4. Text-To-Text Transfer Transformer (T5)
ГЛАВА 2. ПОДХОД К РЕШЕНИЮ ЗАДАЧИ NL2SQL
- 2.1. Постановка задачи
- 2.2. Задача WikiSQL
ГЛАВА 3. МОДЕЛИ ДЛЯ SKETCH-BASED ПОДХОДА НА ОСНОВЕ BERT, GPT-3 И T5
- 3.1. Работа над реализацией моделей
- 3.2. Описание baseline на основе BERT
  - 3.2.1. Использование BERT для NL2SQL
  - 3.2.2. Генерация последовательности-в-SQL
  - 3.2.3. Модель на основе GPT-3 и T5
ГЛАВА 4. МОДЕЛИ ДЛЯ ГЕНЕРАЦИИ КОНЕЧНОГО ЗАПРОСА TEXT-TO-TEXT НА ОСНОВЕ GPT-3 И T5
- 4.1. Работа над реализацией моделей
- 4.2. Методы для улучшения качества моделей генерации GPT-3 и T5
ГЛАВА 5. ОПИСАНИЕ И АНАЛИЗ РЕЗУЛЬТАТОВ
- 5.1. Детали обучения моделей
- 5.2. Метрики оценки качества моделей
- 5.3. Результаты для моделей со sketch-based подходом
- 5.4. Результаты для моделей прямой генерации из вопроса в SQL
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

Статистика использования

Количество обращений: 47
За последние 30 дней: 2
Подробная статистика

Детальная информация

Аннотация

Права на использование объекта хранения

Оглавление

Статистика использования