Детальная информация
Название | Development of the system of automatic generation of database model on the basis of the task text in natural language // Информатика, телекоммуникации и управление. – 2024. – Т. 17, № 3: Тематический сборник "Решение прикладных задач методами искусственного интеллекта". — С. 93-102 |
---|---|
Авторы | Lapin I. A. ; Sabinin O. Yu. |
Выходные сведения | 2024 |
Коллекция | Общая коллекция |
Тематика | Вычислительная техника ; Системы управления базами данных (СУБД) ; Прикладные информационные (компьютерные) технологии в целом ; database models ; natural languages (linguistics) ; database model generation ; automatic generation ; text analysis ; neural network models ; machine learning ; модели баз данных ; естественные языки (языкознание) ; генерация моделей баз данных ; автоматическая генерация ; анализ текстов ; нейросетевые модели ; машинное обучение |
УДК | 004.65 ; 004.9 |
ББК | 32.973-018.2 ; 32.973-018 |
Тип документа | Статья, доклад |
Тип файла | |
Язык | Английский |
DOI | 10.18721/JCSTCS.17309 |
Права доступа | Свободный доступ из сети Интернет (чтение, печать, копирование) |
Ключ записи | RU\SPSTU\edoc\74893 |
Дата создания записи | 18.12.2024 |
This paper describes an approach to the implementation of a system that would allow automatic database model generation from a natural language description given by the user. Different machine learning technique, such as transformer, named entity recognition and relation extraction are considered and applied. The implementation of the neural network model uses the capabilities of the spaCy framework to organize a generic pipeline for training. Off-the-shelf implementations of some individual components from spaCy are also used, while the rest are custom. Moreover, we describe the process of gathering and preparing raw data for training a neural network model, and generating a proper corpus from them. For this purpose, a specialized annotating tool, Doccano, is used, which satisfies all requirements and is freely available. Finally, the paper presents the model parameters used in training and the performance metrics obtained. We’ve been able to achieve great results for the named entity recognition component, while the performance metrics of the relation extraction component can still be improved. The paper concludes with possible directions for further work on the implementation of the described system, including the relation extraction component improvements and new features implementation.
В данной статье описывается подход к реализации системы, которая позволила бы автоматически составлять модель базы данных по приведенному пользователем описанию на естественном языке. Рассматриваются и применяются различные методы машинного обучения, такие как трансформер, распознавание именованных сущностей и извлечение отношений. При реализации нейросетевой модели применяются возможности фреймворка spaCy для организации общего пайплайна для обучения. Также используются готовые реализации некоторых отдельных компонентов из spaCy, в то время как остальные являются пользовательскими. Кроме того, в статье описывается процесс сбора исходных данных для обучения нейросетевой модели, а также формирование из них надлежащего корпуса. Для этих целей используется специализированный инструмент для аннотирования - Doccano, который удовлетворяет всем функциональным требованиям, а также находится в свободном доступе. Наконец, в статье приводятся используемые при обучении параметры модели и полученные метрики производительности. В результате проведенного исследования авторам удалось достигнуть высоких показателей для компонента named entity recognition, в то время как показатели производительности для компонента relation extraction можно еще улучшить. В конце статьи приводятся возможные направления дальнейшей работы над реализацией описанной системы.
Количество обращений: 86
За последние 30 дней: 19