Enhancing Boundary Stability in Decision Trees and Random Forests: A Weighted Sample Duplication Approach = Повышение устойчивости границ в деревьях решений и случайных лесах: подход с использованием взвешенного дублирования выборки

Konstantinov, A. V.; Elizarova, A. P.; Utkin, L. V.

Details

Title	Enhancing Boundary Stability in Decision Trees and Random Forests: A Weighted Sample Duplication Approach = Повышение устойчивости границ в деревьях решений и случайных лесах: подход с использованием взвешенного дублирования выборки // Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. – 2026. – Т. 19, № 1. — С. 16-25
Creators	Konstantinov A. V. ; Elizarova A. P. ; Utkin L. V.
Imprint	2026
Collection	Общая коллекция
Subjects	Радиоэлектроника ; Искусственный интеллект. Экспертные системы ; machine learning ; decision trees (computing) ; random forests (computing) ; data duplication ; decision boundaries ; classical decision trees ; low computing costs ; машинное обучение ; деревья решений (вычислительная техника) ; случайные леса (вычислительная техника) ; дублирование данных ; границы принятия решений ; классические деревья решений ; низкие вычислительные затраты
UDC	004.8
LBC	32.813
Document type	Article, report
Language	English
DOI	10.18721/JCSTCS.19102
Rights	Свободный доступ из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	RU\SPSTU\edoc\78767
Record create date	4/28/2026

Allowed Actions

Read Download (0.5 Mb)

Group	Anonymous
Network	Internet

Decision trees and their ensemble extensions, such as random forests, are widely used as classification models due to their simplicity and interpretability. However, in many real-world tasks where class labels overlap in the feature space, standard decision trees rely on hard splits that create fragile decision boundaries. In these regions, small perturbations in the input values can lead to misclassification, reducing the reliability of the model. To address this issue, we propose a localized data duplication mechanism that modifies the standard CART algorithm by duplicating samples located near the chosen split threshold into both child nodes. To prevent these duplicated samples from overpowering the nodes, they are assigned a reduced weight based on a smoothly decaying function relative to their distance from the threshold. This approach allows both child nodes to learn from ambiguous regions, preserving information about uncertainty while maintaining the axis-aligned deterministic structure of classical decision trees. When applied within a random forest framework, the duplication process also increases ensemble diversity. Experimental evaluation on 11 real-world datasets with varying degrees of class overlap demonstrates that the proposed modification consistently improves ROC-AUC scores and boundary stability while keeping computational costs low.

Деревья решений и их ансамблевые расширения, такие как случайные леса, широко используются в качестве моделей классификации благодаря своей простоте и интерпретируемости. Однако во многих реальных задачах, где метки классов перекрываются в пространстве признаков, стандартные деревья решений полагаются на жесткие разбиения, которые создают слабые границы принятия решений. В этих областях небольшие возмущения входных значений могут привести к неправильной классификации, снижая надежность модели. Для решения этой проблемы мы предлагаем механизм локализованного дублирования данных, который модифицирует стандартный алгоритм CART (Classification and Regression Tree) путем дублирования образцов, расположенных вблизи выбранного порога разбиения, в оба дочерних узла. Чтобы предотвратить перегрузку узлов этими дублированными образцами, им присваивается уменьшенный вес на основе плавно убывающей функции относительно их расстояния от порога. Такой подход позволяет обоим дочерним узлам обучаться на неоднозначных областях, сохраняя информацию о неопределенности, одновременно поддерживая выровненную по осям детерминированную структуру классических деревьев решений. При применении в рамках случайного леса процесс дублирования также увеличивает разнообразие ансамбля. Экспериментальная оценка на 11 реальных наборах данных с различной степенью перекрытия классов показывает, что предложенная модификация последовательно улучшает показатели ROC-AUC и устойчивость границ, сохраняя при этом низкие вычислительные затраты.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	All

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. — Электрон. журнал. — Периодичность: 4 раза в год. — Свободный доступ из сети Интернет (чтение, печать, копирование). — Текст: электронный

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. Т. 19, № 1, 2026. — 1 файл (7,05 Мб). — Свободный доступ из сети Интернет (чтение, печать, копирование). — <URL:http://elib.spbstu.ru/dl/2/j26-173.pdf>.

...