Исследование эффективности применения нейронных сетей в задаче перевода естественного языка в SQL: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»

Лащенов, Евгений Игоревич

Details

	Table	Card	RUSMARC

Title:	Исследование эффективности применения нейронных сетей в задаче перевода естественного языка в SQL: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators:	Лащенов Евгений Игоревич
Scientific adviser:	Малеев Олег Геннадьевич
Other creators:	Локшина Екатерина Геннадиевна
Organization:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint:	Санкт-Петербург, 2021
Collection:	Выпускные квалификационные работы; Общая коллекция
Subjects:	NL2SQL; машинное обучение; нейронные сети; GPT-3; BERT; T5; естественная обработка языка; рекуррентные нейронные сети; трансформер; machine learning; neural networks; natural language processing; recurrent neural networks; transformer
Document type:	Bachelor graduation qualification work
File type:	PDF
Language:	Russian
Level of education:	Bachelor
Speciality code (FGOS):	09.03.04
Speciality group (FGOS):	090000 - Информатика и вычислительная техника
Links:	Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI:	10.18720/SPBPU/3/2021/vr/vr21-591
Rights:	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key:	ru\spstu\vkr\12725

Allowed Actions: –

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В данной работе рассматривается решение задачи перевода естественного языка в SQL с помощью современных архитектур GPT-3, BERT, T5. Проводится сравнительный анализ этих архитектур при использовании двух подходов: с использованием sketch-based архитектуры, при которой конечный запрос не генерируется полностью, а заполняются «слоты» и с генерацией конечного запроса на SQL text-to-text. Для решения полученной задачи исследования эффективности различных нейронных сетей для начала были рассмотрены существующие решения. Были подробно изучены устройства архитектур GPT-3, T5 и BERT для последующей интеграции в модели для решения задачи NL2SQL. Для sketch-based подхода за бейзлайн была взята модель SQLova, которая была затем переписана для внесения дополнительных изменений. Были обучены модели с использованием GPT-3, T5 и проведен сравнительный анализ результатов. В text-to-text подходе за основную использовалась модель T5, которая без дополнительных решений показала сразу хороший результат. Далее она была улучшена с помощью gated extraction network, генерацией вторичных данных. Такая же модель была обучена с помощью архитектуры GPT-3, проведено сравнение результатов.

This paper considers the solution of the problem of natural language translation in SQL using modern architectures GPT-3, BERT, T5.A comparative analysis of these architectures is carried out using two approaches: using a sketch-based architecture, in which the final query is not generated completely, but the "slots" are filled, and with the generation of the final query in SQL text-to-text. To solve the obtained problem of studying the effectiveness of various neural networks, we first considered the existing solutions. The devices of the GPT-3, T5, and BERT architectures were studied in detail for subsequent integration into models for solving the NL2SQL problem. For the sketch-based approach, the SQLova model was taken as the baseline, which was then rewritten to make additional changes. Models were trained using GPT-3, T5 and a comparative analysis of the results was carried out. In the text-to-text approach, the T5 model was used for the main one, which immediately showed a good result without additional solutions. It was further improved with the gated extraction network, the generation of secondary data. The same model was trained using the GPT-3 architecture, and the results were compared.

Document access rights

	Network		User group		Action
	ILC SPbPU Local Network		All
	Internet		Authorized users SPbPU
	Internet		Anonymous

ВВЕДЕНИЕ
ГЛАВА 1. ОСНОВНЫЕ КОНЦЕПЦИИ, ПОДХОДЫ И АРХИТЕКТУРЫ, ИСПОЛЬЗУЕМЫЕ В ЗАДАЧАХ NL2SQL И NLP
- 1.1. Понятия и подходы в NL2SQL
- 1.2. Подходы к решению задачи NL2SQL
  - 1.2.1. Модель Seq2SQL
  - 1.2.2. Модель SQLNet
  - 1.2.3. Модель TypeSQL
  - 1.2.4. Модель X-SQL
- 1.3. Архитектуры BERT, GPT-3 и T5
  - 1.3.1. Transformer и механизм self-attention
  - 1.3.2. Bidirectional Encoder Representations from Transformers
  - 1.3.3. Generative Pre-trained Transformer (GPT-3)
  - 1.3.4. Text-To-Text Transfer Transformer (T5)
ГЛАВА 2. ПОДХОД К РЕШЕНИЮ ЗАДАЧИ NL2SQL
- 2.1. Постановка задачи
- 2.2. Задача WikiSQL
ГЛАВА 3. МОДЕЛИ ДЛЯ SKETCH-BASED ПОДХОДА НА ОСНОВЕ BERT, GPT-3 И T5
- 3.1. Работа над реализацией моделей
- 3.2. Описание baseline на основе BERT
  - 3.2.1. Использование BERT для NL2SQL
  - 3.2.2. Генерация последовательности-в-SQL
  - 3.2.3. Модель на основе GPT-3 и T5
ГЛАВА 4. МОДЕЛИ ДЛЯ ГЕНЕРАЦИИ КОНЕЧНОГО ЗАПРОСА TEXT-TO-TEXT НА ОСНОВЕ GPT-3 И T5
- 4.1. Работа над реализацией моделей
- 4.2. Методы для улучшения качества моделей генерации GPT-3 и T5
ГЛАВА 5. ОПИСАНИЕ И АНАЛИЗ РЕЗУЛЬТАТОВ
- 5.1. Детали обучения моделей
- 5.2. Метрики оценки качества моделей
- 5.3. Результаты для моделей со sketch-based подходом
- 5.4. Результаты для моделей прямой генерации из вопроса в SQL
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

Usage statistics

Access count: 50
Last 30 days: 2
Detailed usage statistics

Details

Annotation

Document access rights

Table of Contents

Usage statistics