Details

Title Enhancing Boundary Stability in Decision Trees and Random Forests: A Weighted Sample Duplication Approach = Повышение устойчивости границ в деревьях решений и случайных лесах: подход с использованием взвешенного дублирования выборки // Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. – 2026. – Т. 19, № 1. — С. 16-25
Creators Konstantinov A. V. ; Elizarova A. P. ; Utkin L. V.
Imprint 2026
Collection Общая коллекция
Subjects Радиоэлектроника ; Искусственный интеллект. Экспертные системы ; machine learning ; decision trees (computing) ; random forests (computing) ; data duplication ; decision boundaries ; classical decision trees ; low computing costs ; машинное обучение ; деревья решений (вычислительная техника) ; случайные леса (вычислительная техника) ; дублирование данных ; границы принятия решений ; классические деревья решений ; низкие вычислительные затраты
UDC 004.8
LBC 32.813
Document type Article, report
Language English
DOI 10.18721/JCSTCS.19102
Rights Свободный доступ из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key RU\SPSTU\edoc\78767
Record create date 4/28/2026

Allowed Actions

Read Download (0.5 Mb)

Group Anonymous
Network Internet

Decision trees and their ensemble extensions, such as random forests, are widely used as classification models due to their simplicity and interpretability. However, in many real-world tasks where class labels overlap in the feature space, standard decision trees rely on hard splits that create fragile decision boundaries. In these regions, small perturbations in the input values can lead to misclassification, reducing the reliability of the model. To address this issue, we propose a localized data duplication mechanism that modifies the standard CART algorithm by duplicating samples located near the chosen split threshold into both child nodes. To prevent these duplicated samples from overpowering the nodes, they are assigned a reduced weight based on a smoothly decaying function relative to their distance from the threshold. This approach allows both child nodes to learn from ambiguous regions, preserving information about uncertainty while maintaining the axis-aligned deterministic structure of classical decision trees. When applied within a random forest framework, the duplication process also increases ensemble diversity. Experimental evaluation on 11 real-world datasets with varying degrees of class overlap demonstrates that the proposed modification consistently improves ROC-AUC scores and boundary stability while keeping computational costs low.

Деревья решений и их ансамблевые расширения, такие как случайные леса, широко используются в качестве моделей классификации благодаря своей простоте и интерпретируемости. Однако во многих реальных задачах, где метки классов перекрываются в пространстве признаков, стандартные деревья решений полагаются на жесткие разбиения, которые создают слабые границы принятия решений. В этих областях небольшие возмущения входных значений могут привести к неправильной классификации, снижая надежность модели. Для решения этой проблемы мы предлагаем механизм локализованного дублирования данных, который модифицирует стандартный алгоритм CART (Classification and Regression Tree) путем дублирования образцов, расположенных вблизи выбранного порога разбиения, в оба дочерних узла. Чтобы предотвратить перегрузку узлов этими дублированными образцами, им присваивается уменьшенный вес на основе плавно убывающей функции относительно их расстояния от порога. Такой подход позволяет обоим дочерним узлам обучаться на неоднозначных областях, сохраняя информацию о неопределенности, одновременно поддерживая выровненную по осям детерминированную структуру классических деревьев решений. При применении в рамках случайного леса процесс дублирования также увеличивает разнообразие ансамбля. Экспериментальная оценка на 11 реальных наборах данных с различной степенью перекрытия классов показывает, что предложенная модификация последовательно улучшает показатели ROC-AUC и устойчивость границ, сохраняя при этом низкие вычислительные затраты.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet All
...