Details

Title Contextual regularization of the feature space of weakly structured data for analyzing the risk topology of complex technical systems = Контекстуальная регуляризация признакового пространства слабоструктурированных данных для анализа топологии рисков сложных технических систем // Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. – 2026. – Т. 19, № 1. — С. 80-90
Creators Shkodyrev V. P. ; Konnikov E. A. ; Polyakov P. A.
Imprint 2026
Collection Общая коллекция
Subjects Вычислительная техника ; Имитационное компьютерное моделирование ; Техника ; Техническое моделирование ; technical systems ; topology of systemic risks ; poorly structured data ; feature data space ; contextual regularization ; thematic modeling ; systemic risk analysis ; технические системы ; топология системных рисков ; слабоструктурированные данные ; признаковое пространство данных ; контекстуальная регуляризация ; тематическое моделирование ; системный анализ рисков
UDC 004.94; 62.001.57
LBC 32.973-018.2; 30в6
Document type Article, report
Language English
DOI 10.18721/JCSTCS.19108
Rights Свободный доступ из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key RU\SPSTU\edoc\78773
Record create date 4/28/2026

Allowed Actions

Read Download (0.4 Mb)

Group Anonymous
Network Internet

The paper addresses the problem of eliminating sparsity and «false orthogonality» in short, weakly structured technical messages that hinder systematic analysis and modeling of the risk topology of complex technical systems. A method of contextual regularization of the feature space is proposed, which treats the enrichment of vector representations as a controlled diffusion process on a graph of joint occurrence of lemmas. The context topology is specified by a weighted adjacency matrix based on positive pointwise mutual information, and the recursive diffuser performs iterative feature propagation with depth attenuation and adaptive IDF gating, which suppresses noisy connections and amplifies diagnostically significant terms. The regularization parameter tuning is formalized as a task of maximizing the target quality functional, combining metrics of structural separability and semantic completeness with a threshold penalty for separability degradation. A priori, the limited nature of the diffusion process is demonstrated, and the elimination of orthogonality of terminologically heterogeneous descriptions in the presence of a contextual "bridge" in the graph is proven. Experimental testing on the NRC operational message corpus demonstrates a significant increase in the semantic coherence of topics while maintaining the geometric separability of clusters. The resulting regularized space improves the interpretability of the thematic structure of incidents and creates a basis for the subsequent self-organization of the risk event taxonomy and the construction of verifiable decision support contours.

В статье рассматривается проблема устранения разреженности и "ложной ортогональности" в коротких, слабо структурированных технических сообщениях, которые затрудняют систематический анализ и моделирование топологии рисков сложных технических систем. Предлагается метод контекстной регуляризации пространства признаков, который рассматривает обогащение векторных представлений как управляемый процесс диффузии на графе совместного появления лемм. Топология контекста задается взвешенной матрицей смежности на основе положительной точечной взаимной информации, а рекурсивный диффузор выполняет итеративное распространение признаков с глубинным затуханием и адаптивным IDF-шлюзом, который подавляет шумовые связи и усиливает диагностически значимые термины. Настройка параметра регуляризации формализуется как задача максимизации целевого функционала качества, сочетающего метрики структурной разделимости и семантической полноты с пороговым штрафом за ухудшение разделимости. Априори демонстрируется ограниченный характер процесса диффузии и доказывается устранение ортогональности терминологически гетерогенных описаний при наличии контекстуального "моста" в графе. Экспериментальное тестирование на корпусе оперативных сообщений NRC демонстрирует значительное увеличение семантической когерентности тем при сохранении геометрической разделимости кластеров. Полученное в результате регуляризованное пространство улучшает интерпретируемость тематической структуры инцидентов и создает основу для последующей самоорганизации таксономии рисковых событий и построения проверяемых контуров поддержки принятия решений.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet All
...