Детальная информация

Название: Алгоритм обнаружения выбросов в данных на основе неравенства Чебышева: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_02 «Системное программирование»
Авторы: Чепулис Михаил Артемович
Научный руководитель: Шевляков Георгий Леонидович
Другие авторы: Арефьева Людмила Анатольевна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт прикладной математики и механики
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: аномалия; выброс; неравенство чебышева; робастные оценки; python; anomaly; outlier; chebyshev inequality; robust estimates
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 01.03.02
Группа специальностей ФГОС: 010000 - Математика и механика
Ссылки: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1587
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\8297

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Данная работа посвящена исследованию адаптации метода из [3] основанного на неравенстве Чебышева на одномерные данные. Также рассматривается его робастная модификация. В работе изложены общие понятия об отбраковке аномалий в данных, различных классических и неклассических методах отбраковки. Проведено сравнение качества отбраковки этих алгоритмов. Разработана программная реализация методов генерации модельных данных, выявления выбросов, анализа и визуализации результатов. Программный комплекс реализован на языке программирования Python в среде разработки PyCharm. В результате были проанализированы следующие методы отбраковки аномалий: N-сигм с его робастными модификациями, боксплот Тьюки, метод на основе неравенства Чебышева и его робастная модификация на модельных данных со стандартным нормальным распределением и засорением типа «сдвиг», «масштаб», распределение Коши. Также было решено провести выбор параметров алгоритмов для конкретных распределений перебором по сетке. На основании проведённых исследований сделан вывод о том, что при непосредственном использовании неравенства Чебышева можно прийти к классическому методу N-сигм. При использовании «неклассического» неравенства Чебышева получается робастное правило отбраковки, которое зачастую не уступает, а иногда и превосходит прочие рассматриваемые алгоритмы. Для многих методов были предложены «удачные» параметры для различных распределений перебором по сетке на основе максимума H-меры.

This paper is devoted to the study of changes in aspect [3], based on Chebyshev inequality on one-dimensional data. Its robust modification is also available. It outlines general concepts about data drops, various classic and non-classical aspects of drops. The quality of rejection of these algorithms is compared. Software implementations of model data generation methods have been developed. Python in the PyCharm development environment. As a result, the following data analysis methods were analyzed: N-sigma with its robust modifications, methods based on Chebyshev inequality and its robust modification on model data with standard normal distribution and contaminating such as “shift”, “scale”, Cauchy estimate. It was also decided to select the parameters of the algorithms for specific distributions over the grid. As a result of the research, it was concluded that when directly using Chebyshev inequality can be found in the classical N-sigma method, when using the “non-classical” Chebyshev inequality, a robust rejection rule is obtained that often does not concede, and sometimes surpass all other possible algorithms . For many methods, “successful” parameters were proposed for various distributions based on the maximum of the H-measure.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 7
За последние 30 дней: 0
Подробная статистика