Details
| Title | Enhancing Boundary Stability in Decision Trees and Random Forests: A Weighted Sample Duplication Approach = Повышение устойчивости границ в деревьях решений и случайных лесах: подход с использованием взвешенного дублирования выборки // Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. – 2026. – Т. 19, № 1. — С. 16-25 |
|---|---|
| Creators | Konstantinov A. V. ; Elizarova A. P. ; Utkin L. V. |
| Imprint | 2026 |
| Collection | Общая коллекция |
| Subjects | Радиоэлектроника ; Искусственный интеллект. Экспертные системы ; machine learning ; decision trees (computing) ; random forests (computing) ; data duplication ; decision boundaries ; classical decision trees ; low computing costs ; машинное обучение ; деревья решений (вычислительная техника) ; случайные леса (вычислительная техника) ; дублирование данных ; границы принятия решений ; классические деревья решений ; низкие вычислительные затраты |
| UDC | 004.8 |
| LBC | 32.813 |
| Document type | Article, report |
| Language | English |
| DOI | 10.18721/JCSTCS.19102 |
| Rights | Свободный доступ из сети Интернет (чтение, печать, копирование) |
| Additionally | New arrival |
| Record key | RU\SPSTU\edoc\78767 |
| Record create date | 4/28/2026 |
Decision trees and their ensemble extensions, such as random forests, are widely used as classification models due to their simplicity and interpretability. However, in many real-world tasks where class labels overlap in the feature space, standard decision trees rely on hard splits that create fragile decision boundaries. In these regions, small perturbations in the input values can lead to misclassification, reducing the reliability of the model. To address this issue, we propose a localized data duplication mechanism that modifies the standard CART algorithm by duplicating samples located near the chosen split threshold into both child nodes. To prevent these duplicated samples from overpowering the nodes, they are assigned a reduced weight based on a smoothly decaying function relative to their distance from the threshold. This approach allows both child nodes to learn from ambiguous regions, preserving information about uncertainty while maintaining the axis-aligned deterministic structure of classical decision trees. When applied within a random forest framework, the duplication process also increases ensemble diversity. Experimental evaluation on 11 real-world datasets with varying degrees of class overlap demonstrates that the proposed modification consistently improves ROC-AUC scores and boundary stability while keeping computational costs low.
Деревья решений и их ансамблевые расширения, такие как случайные леса, широко используются в качестве моделей классификации благодаря своей простоте и интерпретируемости. Однако во многих реальных задачах, где метки классов перекрываются в пространстве признаков, стандартные деревья решений полагаются на жесткие разбиения, которые создают слабые границы принятия решений. В этих областях небольшие возмущения входных значений могут привести к неправильной классификации, снижая надежность модели. Для решения этой проблемы мы предлагаем механизм локализованного дублирования данных, который модифицирует стандартный алгоритм CART (Classification and Regression Tree) путем дублирования образцов, расположенных вблизи выбранного порога разбиения, в оба дочерних узла. Чтобы предотвратить перегрузку узлов этими дублированными образцами, им присваивается уменьшенный вес на основе плавно убывающей функции относительно их расстояния от порога. Такой подход позволяет обоим дочерним узлам обучаться на неоднозначных областях, сохраняя информацию о неопределенности, одновременно поддерживая выровненную по осям детерминированную структуру классических деревьев решений. При применении в рамках случайного леса процесс дублирования также увеличивает разнообразие ансамбля. Экспериментальная оценка на 11 реальных наборах данных с различной степенью перекрытия классов показывает, что предложенная модификация последовательно улучшает показатели ROC-AUC и устойчивость границ, сохраняя при этом низкие вычислительные затраты.