Детальная информация

Название: Разработка и исследование алгоритмов изолирующего леса для обнаружения аномалий в транзакционных данных: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_02 «Организация и управление суперкомпьютерными системами»
Авторы: Филиппова Елена Ивановна
Научный руководитель: Уткин Лев Владимирович
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2022
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Алгоритмы; распознование аномалий; изолирующий лес; оценка плотности распределения; весовые коэффициенты; anomaly detection; isolation forest; desity estimation; weighting coefficients
УДК: 004.421
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 02.04.01
Группа специальностей ФГОС: 020000 - Компьютерные и информационные науки
DOI: 10.18720/SPBPU/3/2023/vr/vr23-529
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\20827

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Предметом исследования является модификация существующего алгоритма изолирующего леса (далее — ИЛ), а целью – увеличение эффективности обна­ ружения аномалий алгоримом изолирующего леса путем его модификации. В работе применялись методы математической статистики, машинного обучения и объектно-ориентированного программирования. Был исследован алгоритм ИЛ и его модификации: расширенный ИЛ, ИЛ сейсмической активности, обобщенный ИЛ. Также была предложена и изучена собственная модификация ИЛ – весовой изолирующий лес. Реализация алгоритмов выполнялась на языке С++ 20 без использования сторонних библиотек. Набор данных для тестирования содержал 16 млн транзакций, собранным за примерно 5 месяцев работы. Разработанная и реализованная модель весового изолирующего леса в ходе тестирования обна­ ружения аномалий на деперсонализированных транзакционных данных показала себя наиболее сбалансированной моделью ИЛ. Выявление диапазона параметров количества изолирующих деревьев и объема выборки позволяет достичь боль­ шей точности, чем у других модификаций ИЛ: моделей расширенного ИЛ и ИЛ сейсмической активности.

The subject of the study is the modification of the existing the isolating forest algorithm (hereinafter — IF), and the goal is to increase the efficiency of anomaly detection via the isolating forest algorithm by modifying it. Methods of mathematical statistics, machine learning and object-oriented programming were used in the work. The IF algorithm and its modifications were investigated: expanded IF, IF of seismic activity, generalized IF. A proprietary modification of the IF, a weight insulating forest, was also proposed and studied. The algorithms were implemented in C++ 20 without using third-party libraries. The data set for testing contained 16 million transactions collected over approximately 5 months of operation. The developed and implemented model of the weight isolating forest during testing of anomaly detection on depersonalized transactional data proved to be the most balanced IF model. Identification of the range of parameters of the number of isolating trees and the sample size allows to achieve greater accuracy than other modifications of the IF: models of extended IF and IF seismic activity.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • Разработка и исследование алгоритмов изолирующего леса для обнаружения аномалий в транзакционных данных
    • Список сокращений и условных обозначений
    • Введение
    • 1. Анализ методов решения задачи определения аномалий
    • 2. Разработка алгоритма решения задачи обнаружения аномалий
    • 3. Разработка модели модифицированного изолирующего леса на языке С++
    • 4. Тест разработанной модели
    • Заключение
    • Список использованных источников
    • Приложение 1. Результаты экспериментов

Статистика использования

stat Количество обращений: 16
За последние 30 дней: 0
Подробная статистика