Таблица | Карточка | RUSMARC | |
Разрешенные действия: –
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа: Анонимные пользователи Сеть: Интернет |
Аннотация
Данная работа посвящена применению методов обработки естественного языка для построения графа знаний. В ней на примере спецификации протокола SIP изложена методика построения графа знаний с применением библиотеки spaCy. Проведен анализ баз данных, используемых для хранения графовых структур. Разработаны средсва сбора и первичной обработки текстовых документов RFC, спроектирован алгоритм NLP-обработки для выделения триплетов субъект-предикат-объект, а также созданы утилиты для их хранения в базе данных Neo4j. На основе полученного графа знаний разработана информационная система для чтения RFC\,3261 с функцией интеллектуального поиска. Данная работа посвящена применению методов обработки естественного языка для построения графа знаний. В ней на примере спецификации протокола SIP изложена методика построения графа знаний с применением библиотеки spaCy. Проведен анализ баз данных, используемых для хранения графовых структур. Разработаны средсва сбора и первичной обработки текстовых документов RFC, спроектирован алгоритм NLP-обработки для выделения триплетов субъект-предикат-объект, а также созданы утилиты для их хранения в базе данных Neo4j. На основе полученного графа знаний разработана информационная система для чтения RFC\,3261 с функцией интеллектуального поиска.
This work is devoted to the application of natural language processing methods for constructing a knowledge graph. Using the SIP protocol specification as an example, it describes a method for constructing a knowledge graph using the spaCy library. The analysis of databases used for storing graph structures is carried out. RFC text document collection and primary processing environments have been developed, an NLP processing algorithm has been designed to isolate subject-predicate-object triplets, and utilities have been created for storing them in the Neo4j database. Based on the obtained knowledge graph, an information system for reading RFC\,3261 with an intelligent search function has been developed. This work is devoted to the application of natural language processing methods for constructing a knowledge graph. Using the SIP protocol specification as an example, it describes a method for constructing a knowledge graph using the spaCy library. The analysis of databases used for storing graph structures is carried out. RFC text document collection and primary processing environments have been developed, an NLP processing algorithm has been designed to isolate subject-predicate-object triplets, and utilities have been created to store them in the Neo4j database. Based on the obtained knowledge graph, an information system for reading RFC\,3261 with an intelligent search function has been developed.
Права на использование объекта хранения
Место доступа | Группа пользователей | Действие | ||||
---|---|---|---|---|---|---|
Локальная сеть ИБК СПбПУ | Все | |||||
Интернет | Авторизованные пользователи СПбПУ | |||||
Интернет | Анонимные пользователи |
Оглавление
- Применение методов машинного обучения для построения графов знаний на основе спецификационных документов протокола SIP
- Введение
- 1. Описание предметной области
- 2. Методика построения графа знаний
- 3. Построение графа знаний и информационной системы на его основе
- 4. Анализ качества решения и тестирование системы
- Заключение
- Словарь терминов
- Список использованных источников
- Приложение 1. Исходный код для сбора начальных данных
- Приложение 2. Исходный код парсера RFC
- Приложение 3. Исходный код выделения сущностей из текста
- Приложение 4. Исходный код выделения связей между сущностями в тексте
- Приложение 5. Исходный код для разрешения отношений кореферентности
- Приложение 6. Исходный код для наполнения базы данных
- Приложение 7. Исходный код бэкенда
- Приложение 8. Исходный код фронтенда
Статистика использования
Количество обращений: 8
За последние 30 дней: 0 Подробная статистика |