Детальная информация

Название Development of the system of automatic generation of database model on the basis of the task text in natural language // Информатика, телекоммуникации и управление. – 2024. – Т. 17, № 3: Тематический сборник "Решение прикладных задач методами искусственного интеллекта". — С. 93-102
Авторы Lapin I. A. ; Sabinin O. Yu.
Выходные сведения 2024
Коллекция Общая коллекция
Тематика Вычислительная техника ; Системы управления базами данных (СУБД) ; Прикладные информационные (компьютерные) технологии в целом ; database models ; natural languages (linguistics) ; database model generation ; automatic generation ; text analysis ; neural network models ; machine learning ; модели баз данных ; естественные языки (языкознание) ; генерация моделей баз данных ; автоматическая генерация ; анализ текстов ; нейросетевые модели ; машинное обучение
УДК 004.65 ; 004.9
ББК 32.973-018.2 ; 32.973-018
Тип документа Статья, доклад
Тип файла PDF
Язык Английский
DOI 10.18721/JCSTCS.17309
Права доступа Свободный доступ из сети Интернет (чтение, печать, копирование)
Ключ записи RU\SPSTU\edoc\74893
Дата создания записи 18.12.2024

Разрешенные действия

Прочитать Загрузить (0,5 Мб)

Группа Анонимные пользователи
Сеть Интернет

This paper describes an approach to the implementation of a system that would allow automatic database model generation from a natural language description given by the user. Different machine learning technique, such as transformer, named entity recognition and relation extraction are considered and applied. The implementation of the neural network model uses the capabilities of the spaCy framework to organize a generic pipeline for training. Off-the-shelf implementations of some individual components from spaCy are also used, while the rest are custom. Moreover, we describe the process of gathering and preparing raw data for training a neural network model, and generating a proper corpus from them. For this purpose, a specialized annotating tool, Doccano, is used, which satisfies all requirements and is freely available. Finally, the paper presents the model parameters used in training and the performance metrics obtained. We’ve been able to achieve great results for the named entity recognition component, while the performance metrics of the relation extraction component can still be improved. The paper concludes with possible directions for further work on the implementation of the described system, including the relation extraction component improvements and new features implementation.

В данной статье описывается подход к реализации системы, которая позволила бы автоматически составлять модель базы данных по приведенному пользователем описанию на естественном языке. Рассматриваются и применяются различные методы машинного обучения, такие как трансформер, распознавание именованных сущностей и извлечение отношений. При реализации нейросетевой модели применяются возможности фреймворка spaCy для организации общего пайплайна для обучения. Также используются готовые реализации некоторых отдельных компонентов из spaCy, в то время как остальные являются пользовательскими. Кроме того, в статье описывается процесс сбора исходных данных для обучения нейросетевой модели, а также формирование из них надлежащего корпуса. Для этих целей используется специализированный инструмент для аннотирования - Doccano, который удовлетворяет всем функциональным требованиям, а также находится в свободном доступе. Наконец, в статье приводятся используемые при обучении параметры модели и полученные метрики производительности. В результате проведенного исследования авторам удалось достигнуть высоких показателей для компонента named entity recognition, в то время как показатели производительности для компонента relation extraction можно еще улучшить. В конце статьи приводятся возможные направления дальнейшей работы над реализацией описанной системы.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать Загрузить
Интернет Все

Количество обращений: 86 
За последние 30 дней: 19

Подробная статистика