Таблица | Карточка | RUSMARC | |
Разрешенные действия: –
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа: Анонимные пользователи Сеть: Интернет |
Аннотация
Предметом исследования является модификация существующего алгоритма изолирующего леса (далее — ИЛ), а целью – увеличение эффективности обна ружения аномалий алгоримом изолирующего леса путем его модификации. В работе применялись методы математической статистики, машинного обучения и объектно-ориентированного программирования. Был исследован алгоритм ИЛ и его модификации: расширенный ИЛ, ИЛ сейсмической активности, обобщенный ИЛ. Также была предложена и изучена собственная модификация ИЛ – весовой изолирующий лес. Реализация алгоритмов выполнялась на языке С++ 20 без использования сторонних библиотек. Набор данных для тестирования содержал 16 млн транзакций, собранным за примерно 5 месяцев работы. Разработанная и реализованная модель весового изолирующего леса в ходе тестирования обна ружения аномалий на деперсонализированных транзакционных данных показала себя наиболее сбалансированной моделью ИЛ. Выявление диапазона параметров количества изолирующих деревьев и объема выборки позволяет достичь боль шей точности, чем у других модификаций ИЛ: моделей расширенного ИЛ и ИЛ сейсмической активности.
The subject of the study is the modification of the existing the isolating forest algorithm (hereinafter — IF), and the goal is to increase the efficiency of anomaly detection via the isolating forest algorithm by modifying it. Methods of mathematical statistics, machine learning and object-oriented programming were used in the work. The IF algorithm and its modifications were investigated: expanded IF, IF of seismic activity, generalized IF. A proprietary modification of the IF, a weight insulating forest, was also proposed and studied. The algorithms were implemented in C++ 20 without using third-party libraries. The data set for testing contained 16 million transactions collected over approximately 5 months of operation. The developed and implemented model of the weight isolating forest during testing of anomaly detection on depersonalized transactional data proved to be the most balanced IF model. Identification of the range of parameters of the number of isolating trees and the sample size allows to achieve greater accuracy than other modifications of the IF: models of extended IF and IF seismic activity.
Права на использование объекта хранения
Место доступа | Группа пользователей | Действие | ||||
---|---|---|---|---|---|---|
Локальная сеть ИБК СПбПУ | Все | |||||
Интернет | Авторизованные пользователи СПбПУ | |||||
Интернет | Анонимные пользователи |
Оглавление
- Разработка и исследование алгоритмов изолирующего леса для обнаружения аномалий в транзакционных данных
- Список сокращений и условных обозначений
- Введение
- 1. Анализ методов решения задачи определения аномалий
- 2. Разработка алгоритма решения задачи обнаружения аномалий
- 3. Разработка модели модифицированного изолирующего леса на языке С++
- 4. Тест разработанной модели
- Заключение
- Список использованных источников
- Приложение 1. Результаты экспериментов
Статистика использования
Количество обращений: 16
За последние 30 дней: 0 Подробная статистика |