Method for automated enrichment of a knowledge base on glass compositions and properties based on data from scientific publications

Pavlov, E. A.; Drobintsev, P. D.; Klinkov, V. A.; Semencha, A. V.; Chernorutskiy, I. G.

Details

Title	Method for automated enrichment of a knowledge base on glass compositions and properties based on data from scientific publications // Информатика, телекоммуникации и управление. – 2025. – Т. 18, № 3. — С. 58-67
Creators	Pavlov E. A. ; Drobintsev P. D. ; Klinkov V. A. ; Semencha A. V. ; Chernorutskiy I. G.
Imprint	2025
Collection	Общая коллекция
Subjects	Радиоэлектроника ; Искусственный интеллект. Экспертные системы ; automated database replenishment ; data extraction ; scientific publications ; glasses ; glass specifications ; large language models ; industrial engineering ; автоматизированное пополнение базы данных ; извлечение данных ; научные публикации ; стекла ; характеристики стекол ; большие языковые модели ; промпт-инжиниринг
UDC	004.8
LBC	32.813
Document type	Article, report
Language	English
DOI	10.18721/JCSTCS.18305
Rights	Свободный доступ из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	RU\SPSTU\edoc\78214
Record create date	2/5/2026

Allowed Actions

Read Download (0.5 Mb)

Group	Anonymous
Network	Internet

Automating the extraction of glass composition and property data from scientific literature is critically important for accelerating the development of new material. This work presents a method integrating: 1) the collection of full-text articles using the Elsevier Research Products APIs, 2) text preprocessing, 3) context-dependent extraction of structured data using a large language model (LLM) and a domain-specific prompt, 4) enrichment of a knowledge base on glasses. The key achievement is the development of a prompt that yields an F1-score of 0.99 for extracting chemical compositions, their properties and correctly establishing relationships between them on a sample of 50 articles. The proposed method significantly simplifies the automatic creation and continuous updating of knowledge bases on glasses, thereby eliminating the traditional reliance on manually curated, potentially outdated resources and providing a robust, data-driven foundation for the efficient designing of glasses with target properties using machine learning.

Автоматизация извлечения данных о составах и свойствах стекол из научной литературы критически важна для ускорения разработки новых материалов. В работе представлен метод, интегрирующий: 1) сбор полнотекстовых статей с помощью Elsevier Research Products APIs, 2) предобработку текста, 3) контекстно-зависимое извлечение структурированных данных с помощью большой языковой модели (LLM) и доменно-специфичного промпта, 4) пополнение базы знаний о стеклах. Ключевым достижением стала разработка промпта, обеспечивающего точность F1=0,99 для извлечения химических составов и их свойств, а также корректного установления связей между ними на выборке из 50 статей. Предлагаемый метод значительно упрощает автоматическое создание и непрерывное обновление баз знаний о стекле, тем самым устраняя традиционную зависимость от вручную отобранных, потенциально устаревших ресурсов и обеспечивая надежную, управляемую данными основу для эффективного проектирования стекол с заданными свойствами с помощью машинного обучения.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	All

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. — Электрон. журнал. — Периодичность: 4 раза в год. — Свободный доступ из сети Интернет (чтение, печать, копирование). — Текст: электронный

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. Т. 18, № 3, 2025. — 1 файл (13,5 Мб). — Свободный доступ из сети Интернет (чтение, печать, копирование). — <URL:http://elib.spbstu.ru/dl/2/j26-69.pdf>.

Access count: 18
Last 30 days: 18

Detailed usage statistics