Details

Title Method for automated enrichment of a knowledge base on glass compositions and properties based on data from scientific publications // Информатика, телекоммуникации и управление. – 2025. – Т. 18, № 3. — С. 58-67
Creators Pavlov E. A. ; Drobintsev P. D. ; Klinkov V. A. ; Semencha A. V. ; Chernorutskiy I. G.
Imprint 2025
Collection Общая коллекция
Subjects Радиоэлектроника ; Искусственный интеллект. Экспертные системы ; automated database replenishment ; data extraction ; scientific publications ; glasses ; glass specifications ; large language models ; industrial engineering ; автоматизированное пополнение базы данных ; извлечение данных ; научные публикации ; стекла ; характеристики стекол ; большие языковые модели ; промпт-инжиниринг
UDC 004.8
LBC 32.813
Document type Article, report
Language English
DOI 10.18721/JCSTCS.18305
Rights Свободный доступ из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key RU\SPSTU\edoc\78214
Record create date 2/5/2026

Allowed Actions

Read Download (0.5 Mb)

Group Anonymous
Network Internet

Automating the extraction of glass composition and property data from scientific literature is critically important for accelerating the development of new material. This work presents a method integrating: 1) the collection of full-text articles using the Elsevier Research Products APIs, 2) text preprocessing, 3) context-dependent extraction of structured data using a large language model (LLM) and a domain-specific prompt, 4) enrichment of a knowledge base on glasses. The key achievement is the development of a prompt that yields an F1-score of 0.99 for extracting chemical compositions, their properties and correctly establishing relationships between them on a sample of 50 articles. The proposed method significantly simplifies the automatic creation and continuous updating of knowledge bases on glasses, thereby eliminating the traditional reliance on manually curated, potentially outdated resources and providing a robust, data-driven foundation for the efficient designing of glasses with target properties using machine learning.

Автоматизация извлечения данных о составах и свойствах стекол из научной литературы критически важна для ускорения разработки новых материалов. В работе представлен метод, интегрирующий: 1) сбор полнотекстовых статей с помощью Elsevier Research Products APIs, 2) предобработку текста, 3) контекстно-зависимое извлечение структурированных данных с помощью большой языковой модели (LLM) и доменно-специфичного промпта, 4) пополнение базы знаний о стеклах. Ключевым достижением стала разработка промпта, обеспечивающего точность F1=0,99 для извлечения химических составов и их свойств, а также корректного установления связей между ними на выборке из 50 статей. Предлагаемый метод значительно упрощает автоматическое создание и непрерывное обновление баз знаний о стекле, тем самым устраняя традиционную зависимость от вручную отобранных, потенциально устаревших ресурсов и обеспечивая надежную, управляемую данными основу для эффективного проектирования стекол с заданными свойствами с помощью машинного обучения.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet All

Access count: 18 
Last 30 days: 18

Detailed usage statistics