Details

Title: Алгоритм обнаружения выбросов в данных на основе неравенства Чебышева: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_02 «Системное программирование»
Creators: Чепулис Михаил Артемович
Scientific adviser: Шевляков Георгий Леонидович
Other creators: Арефьева Людмила Анатольевна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт прикладной математики и механики
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: аномалия; выброс; неравенство чебышева; робастные оценки; python; anomaly; outlier; chebyshev inequality; robust estimates
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 01.03.02
Speciality group (FGOS): 010000 - Математика и механика
Links: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1587
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\8297

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Данная работа посвящена исследованию адаптации метода из [3] основанного на неравенстве Чебышева на одномерные данные. Также рассматривается его робастная модификация. В работе изложены общие понятия об отбраковке аномалий в данных, различных классических и неклассических методах отбраковки. Проведено сравнение качества отбраковки этих алгоритмов. Разработана программная реализация методов генерации модельных данных, выявления выбросов, анализа и визуализации результатов. Программный комплекс реализован на языке программирования Python в среде разработки PyCharm. В результате были проанализированы следующие методы отбраковки аномалий: N-сигм с его робастными модификациями, боксплот Тьюки, метод на основе неравенства Чебышева и его робастная модификация на модельных данных со стандартным нормальным распределением и засорением типа «сдвиг», «масштаб», распределение Коши. Также было решено провести выбор параметров алгоритмов для конкретных распределений перебором по сетке. На основании проведённых исследований сделан вывод о том, что при непосредственном использовании неравенства Чебышева можно прийти к классическому методу N-сигм. При использовании «неклассического» неравенства Чебышева получается робастное правило отбраковки, которое зачастую не уступает, а иногда и превосходит прочие рассматриваемые алгоритмы. Для многих методов были предложены «удачные» параметры для различных распределений перебором по сетке на основе максимума H-меры.

This paper is devoted to the study of changes in aspect [3], based on Chebyshev inequality on one-dimensional data. Its robust modification is also available. It outlines general concepts about data drops, various classic and non-classical aspects of drops. The quality of rejection of these algorithms is compared. Software implementations of model data generation methods have been developed. Python in the PyCharm development environment. As a result, the following data analysis methods were analyzed: N-sigma with its robust modifications, methods based on Chebyshev inequality and its robust modification on model data with standard normal distribution and contaminating such as “shift”, “scale”, Cauchy estimate. It was also decided to select the parameters of the algorithms for specific distributions over the grid. As a result of the research, it was concluded that when directly using Chebyshev inequality can be found in the classical N-sigma method, when using the “non-classical” Chebyshev inequality, a robust rejection rule is obtained that often does not concede, and sometimes surpass all other possible algorithms . For many methods, “successful” parameters were proposed for various distributions based on the maximum of the H-measure.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
External organizations N2 All Read
External organizations N1 All
Internet Authorized users SPbPU Read Print Download
Internet Authorized users (not from SPbPU, N2) Read
Internet Authorized users (not from SPbPU, N1)
-> Internet Anonymous

Usage statistics

stat Access count: 5
Last 30 days: 0
Detailed usage statistics