Таблица | Карточка | RUSMARC | |
Разрешенные действия: –
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа: Анонимные пользователи Сеть: Интернет |
Аннотация
Данная работа посвящена исследованию адаптации метода из [3] основанного на неравенстве Чебышева на одномерные данные. Также рассматривается его робастная модификация. В работе изложены общие понятия об отбраковке аномалий в данных, различных классических и неклассических методах отбраковки. Проведено сравнение качества отбраковки этих алгоритмов. Разработана программная реализация методов генерации модельных данных, выявления выбросов, анализа и визуализации результатов. Программный комплекс реализован на языке программирования Python в среде разработки PyCharm. В результате были проанализированы следующие методы отбраковки аномалий: N-сигм с его робастными модификациями, боксплот Тьюки, метод на основе неравенства Чебышева и его робастная модификация на модельных данных со стандартным нормальным распределением и засорением типа «сдвиг», «масштаб», распределение Коши. Также было решено провести выбор параметров алгоритмов для конкретных распределений перебором по сетке. На основании проведённых исследований сделан вывод о том, что при непосредственном использовании неравенства Чебышева можно прийти к классическому методу N-сигм. При использовании «неклассического» неравенства Чебышева получается робастное правило отбраковки, которое зачастую не уступает, а иногда и превосходит прочие рассматриваемые алгоритмы. Для многих методов были предложены «удачные» параметры для различных распределений перебором по сетке на основе максимума H-меры.
This paper is devoted to the study of changes in aspect [3], based on Chebyshev inequality on one-dimensional data. Its robust modification is also available. It outlines general concepts about data drops, various classic and non-classical aspects of drops. The quality of rejection of these algorithms is compared. Software implementations of model data generation methods have been developed. Python in the PyCharm development environment. As a result, the following data analysis methods were analyzed: N-sigma with its robust modifications, methods based on Chebyshev inequality and its robust modification on model data with standard normal distribution and contaminating such as “shift”, “scale”, Cauchy estimate. It was also decided to select the parameters of the algorithms for specific distributions over the grid. As a result of the research, it was concluded that when directly using Chebyshev inequality can be found in the classical N-sigma method, when using the “non-classical” Chebyshev inequality, a robust rejection rule is obtained that often does not concede, and sometimes surpass all other possible algorithms . For many methods, “successful” parameters were proposed for various distributions based on the maximum of the H-measure.
Права на использование объекта хранения
Место доступа | Группа пользователей | Действие | ||||
---|---|---|---|---|---|---|
Локальная сеть ИБК СПбПУ | Все | |||||
Интернет | Авторизованные пользователи СПбПУ | |||||
Интернет | Анонимные пользователи |
Статистика использования
Количество обращений: 7
За последние 30 дней: 0 Подробная статистика |