Детальная информация
| Название | Method for automated enrichment of a knowledge base on glass compositions and properties based on data from scientific publications // Информатика, телекоммуникации и управление. – 2025. – Т. 18, № 3. — С. 58-67 |
|---|---|
| Авторы | Pavlov E. A. ; Drobintsev P. D. ; Klinkov V. A. ; Semencha A. V. ; Chernorutskiy I. G. |
| Выходные сведения | 2025 |
| Коллекция | Общая коллекция |
| Тематика | Радиоэлектроника ; Искусственный интеллект. Экспертные системы ; automated database replenishment ; data extraction ; scientific publications ; glasses ; glass specifications ; large language models ; industrial engineering ; автоматизированное пополнение базы данных ; извлечение данных ; научные публикации ; стекла ; характеристики стекол ; большие языковые модели ; промпт-инжиниринг |
| УДК | 004.8 |
| ББК | 32.813 |
| Тип документа | Статья, доклад |
| Язык | Английский |
| DOI | 10.18721/JCSTCS.18305 |
| Права доступа | Свободный доступ из сети Интернет (чтение, печать, копирование) |
| Дополнительно | Новинка |
| Ключ записи | RU\SPSTU\edoc\78214 |
| Дата создания записи | 05.02.2026 |
Automating the extraction of glass composition and property data from scientific literature is critically important for accelerating the development of new material. This work presents a method integrating: 1) the collection of full-text articles using the Elsevier Research Products APIs, 2) text preprocessing, 3) context-dependent extraction of structured data using a large language model (LLM) and a domain-specific prompt, 4) enrichment of a knowledge base on glasses. The key achievement is the development of a prompt that yields an F1-score of 0.99 for extracting chemical compositions, their properties and correctly establishing relationships between them on a sample of 50 articles. The proposed method significantly simplifies the automatic creation and continuous updating of knowledge bases on glasses, thereby eliminating the traditional reliance on manually curated, potentially outdated resources and providing a robust, data-driven foundation for the efficient designing of glasses with target properties using machine learning.
Автоматизация извлечения данных о составах и свойствах стекол из научной литературы критически важна для ускорения разработки новых материалов. В работе представлен метод, интегрирующий: 1) сбор полнотекстовых статей с помощью Elsevier Research Products APIs, 2) предобработку текста, 3) контекстно-зависимое извлечение структурированных данных с помощью большой языковой модели (LLM) и доменно-специфичного промпта, 4) пополнение базы знаний о стеклах. Ключевым достижением стала разработка промпта, обеспечивающего точность F1=0,99 для извлечения химических составов и их свойств, а также корректного установления связей между ними на выборке из 50 статей. Предлагаемый метод значительно упрощает автоматическое создание и непрерывное обновление баз знаний о стекле, тем самым устраняя традиционную зависимость от вручную отобранных, потенциально устаревших ресурсов и обеспечивая надежную, управляемую данными основу для эффективного проектирования стекол с заданными свойствами с помощью машинного обучения.
Количество обращений: 18
За последние 30 дней: 18