Таблица | Карточка | RUSMARC | |
Разрешенные действия: –
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа: Анонимные пользователи Сеть: Интернет |
Аннотация
В работе рассматривается проблематика высокой ресурсо- и трудоемкости процесса составления моделей баз данных. При этом существует большой спрос на подобные услуги, как со стороны бизнеса, так и для личного использования, при реализации различных информационных систем и систем хранения данных для них. Предлагается решение данной проблемы путем разработки автоматизированной системы формирования модели базы данных на основе пользовательского текста задания на естественном языке. В работе рассматривается общая проблематика восприятия компьютерами естественного языка, а также предлагаются методы и алгоритмы для реализации прототипа описанной автоматизированной системы; рассматриваются и применяются различные методы машинного обучения, такие как трансформеры, Named Entity Recognition, Relation Extraction, классификаторы и морфологический анализ. При реализации прототипа описанной системы составляется и аннотируется набор данных для обучения, разрабатывается и обучается собственный пайплайн многокомпонентной нейросетевой модели, а также разрабатываются программные компоненты: API на Java для взаимодействия с конечным пользователем и микросервис на Pyton для сообщения между пайплайном нейросетевой модели и основным API. Разработанный прототип удается удачно применить для формирования модели на основе исходного текста задания на естественном языке. Кроме того, разработанная система показывает неплохие результаты в сравнении с решениями на базе больших языковых моделей: YandexGPT и Sber GigaChat.
This paper describes the problem of a high level of resource and effort needs that are required during the process of database modelling. That is said, while also there is a high demand for such tasks during the development of almost any IT system, as for business, individual or educational purposes. Therefore, a solution is proposed – an automated system of database model generation based on the natural language task text should be developed. So, this paper describes the overall problems that are faced with computers trying to understand natural language, while also methods and algorithms are proposed for the mentioned system prototype development. Also, different techniques of machine learning, such as transformers, Named Entity Recognition, Relation Extraction, classification, and morphological analysis, are described and used. During the development of the mentioned prototype a training dataset is composed and annotated alongside with custom neural multicomponent network pipeline being developed and trained. In addition, the following program components are being developed: Java API for user interaction and a Python microservice, which is suited for interaction between main API and neural model pipeline. At the end of the day, the developed prototype has been successfully tested and used to generate a database model based on the given task text in natural language. Also, the developed system has shown good results in comparison with other solutions that are based on Large Language Models, such as YandexGPT and Sber GigaChat, and even outperformed the first one.
Права на использование объекта хранения
Место доступа | Группа пользователей | Действие | ||||
---|---|---|---|---|---|---|
Локальная сеть ИБК СПбПУ | Все | |||||
Интернет | Авторизованные пользователи СПбПУ | |||||
Интернет | Анонимные пользователи |
Оглавление
- Введение
- Глава 1. Обзор литературных источников
- 1.1. Схожие решения
- 1.2. Важные теоретические и практические источники
- 1.3. Выводы
- Глава 2. Проблематика
- 2.1. Общие проблемы восприятия естественного языка машинами
- 2.2. Современные подходы к решению этих проблем
- 2.3. Выводы
- Глава 3. Предметная область
- 3.1. Реляционная модель
- 3.2. Требования к извлекаемой информации
- 3.3. Выводы
- Глава 4. Теоретические аспекты предлагаемого решения
- 4.1. Поиск сущностей в тексте
- 4.2. Поиск связей между сущностями
- 4.3. Определение типов данных
- 4.4. Выводы
- Глава 5. Практическая реализация нейросетевой модели
- 5.1. Сбор данных
- 5.2. Формирование обучающего набора
- 5.2. Предобработка текста
- 5.3. Реализация NER компонента
- 5.4. Реализация RE компонента
- 5.5. Реализация ECAT компонента
- 5.6. Реализация компонентов постобработки
- 5.6.1. Удаление лишних символов и слов
- 5.6.2. Слияние всех вхождений найденной сущности
- 5.6.3. Приведение к согласованному виду
- 5.6.4. Формирование JSON
- 5.7. Выводы
- Глава 6. Программная реализация прототипа системы
- 6.1. Архитектура системы
- 6.2. Используемые инструменты
- 6.3. Реализация микросервиса нейросетевой модели
- 6.4. Реализация основного API
- 6.5. Выводы
- Глава 7. Испытания
- 7.1. Тестовые данные
- 7.2. Алгоритм оценки качества решения
- 7.3. Проведение испытаний
- 7.4. Выводы
- Заключение
- Список использованных источников
- Список сокращений и условных обозначений
- Словарь терминов
Статистика использования
Количество обращений: 6
За последние 30 дней: 0 Подробная статистика |