Method for classifying risk incidents based on self-organization of semantic clusters = Метод классификации риск-инцидентов на основе самоорганизации семантических кластеров

Shkodyrev, V. P.; Rodionov, D. G.; Konnikov, E. A.

Details

Title	Method for classifying risk incidents based on self-organization of semantic clusters = Метод классификации риск-инцидентов на основе самоорганизации семантических кластеров // Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. – 2026. – Т. 19, № 1. — С. 91-102
Creators	Shkodyrev V. P. ; Rodionov D. G. ; Konnikov E. A.
Imprint	2026
Collection	Общая коллекция
Subjects	Вычислительная техника ; Обработка и создание документов ; semantic clusters ; self-organization of semantic clusters ; risk incidents ; classification of risk incidents ; unstructured data ; thematic modeling ; taxonomy of risks ; семантические кластеры ; самоорганизация семантических кластеров ; риск-инциденты ; классификация риск-инцидентов ; неструктурированные данные ; тематическое моделирование ; таксономия рисков
UDC	004.91
LBC	32.973-018.2
Document type	Article, report
Language	English
DOI	10.18721/JCSTCS.19109
Rights	Свободный доступ из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	RU\SPSTU\edoc\78774
Record create date	4/28/2026

Allowed Actions

Read Download (0.5 Mb)

Group	Anonymous
Network	Internet

A method for automatic classification of textual descriptions of emergency risk incidents based on self-organizing semantic clustering is presented, which does not require prior data labeling. Unlike traditional approaches, the method involves a two-stage scheme, which consists of self-organization of a latent taxonomy of incidents through hierarchical thematic decomposition of the text corpus, as well as continuous classification of new messages according to their degree of belonging to all automatically selected classes at once. This transition from rigid assignment to a single class to fuzzy membership allows hybrid incidents to be decomposed into several risk factors, reflecting their mixed nature. The developed algorithm forms an interpretable and stable taxonomy of incidents that preserves the structural isolation of clusters even with a high proportion of hybrid events. Testing on the NRC data corpus showed that most messages have a dominant risk factor with significant secondary components. The average semantic consistency of clusters was ~0.62 (cosine measure), and the classification confidence is distributed around the mean, reflecting the presence of both pure and mixed incidents. The results confirm that the proposed method provides a mathematically correct decomposition of complex situations into a set of risk factors and reduces the sensitivity of classification to noise and inaccuracies in the input text. The methodology is focused on proactive risk analysis in complex technical systems and can be used for automated decision support in industrial safety systems.

Представлен метод автоматической классификации текстовых описаний аварийных риск-инцидентов на основе самоорганизующейся семантической кластеризации, не требующий априорной разметки данных. В отличие от традиционных подходов, метод предполагает двухэтапную схему, которая заключается в самоорганизации латентной таксономии инцидентов посредством иерархического тематического разложения текстового корпуса, а также непрерывной классификации новых сообщений по степени принадлежности ко всем автоматически выделенным классам сразу. Такой переход от жесткого присваивания одного класса к нечеткой принадлежности позволяет декомпозировать гибридные инциденты на несколько факторов риска, отражая их смешанную природу. Разработанный алгоритм формирует интерпретируемую и устойчивую таксономию инцидентов, сохраняющую структурную обособленность кластеров даже при высокой доле гибридных событий. В рамках апробации на корпусе данных NRC показано, что большинство сообщений имеют доминирующий фактор риска при наличии значимых вторичных компонентов. Средняя семантическая согласованность кластеров составила ~0.62 (косинусная мера), а уверенность классификации распределена вокруг среднего значения, отражая наличие как чистых, так и смешанных инцидентов. Результаты подтверждают, что предложенный метод обеспечивает математически корректную декомпозицию сложных ситуаций на совокупность факторов риска и снижает чувствительность классификации к шуму и неточностям входного текста. Методология ориентирована на проактивный анализ риска в сложных технических системах и может применяться для автоматизированной поддержки принятия решений в рамках систем промышленной безопасности.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	All

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. — Электрон. журнал. — Периодичность: 4 раза в год. — Свободный доступ из сети Интернет (чтение, печать, копирование). — Текст: электронный

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. Т. 19, № 1, 2026. — 1 файл (7,05 Мб). — Свободный доступ из сети Интернет (чтение, печать, копирование). — <URL:http://elib.spbstu.ru/dl/2/j26-173.pdf>.

...