Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Данная работа посвящена исследованию адаптации метода из [3] основанного на неравенстве Чебышева на одномерные данные. Также рассматривается его робастная модификация. В работе изложены общие понятия об отбраковке аномалий в данных, различных классических и неклассических методах отбраковки. Проведено сравнение качества отбраковки этих алгоритмов. Разработана программная реализация методов генерации модельных данных, выявления выбросов, анализа и визуализации результатов. Программный комплекс реализован на языке программирования Python в среде разработки PyCharm. В результате были проанализированы следующие методы отбраковки аномалий: N-сигм с его робастными модификациями, боксплот Тьюки, метод на основе неравенства Чебышева и его робастная модификация на модельных данных со стандартным нормальным распределением и засорением типа «сдвиг», «масштаб», распределение Коши. Также было решено провести выбор параметров алгоритмов для конкретных распределений перебором по сетке. На основании проведённых исследований сделан вывод о том, что при непосредственном использовании неравенства Чебышева можно прийти к классическому методу N-сигм. При использовании «неклассического» неравенства Чебышева получается робастное правило отбраковки, которое зачастую не уступает, а иногда и превосходит прочие рассматриваемые алгоритмы. Для многих методов были предложены «удачные» параметры для различных распределений перебором по сетке на основе максимума H-меры.
This paper is devoted to the study of changes in aspect [3], based on Chebyshev inequality on one-dimensional data. Its robust modification is also available. It outlines general concepts about data drops, various classic and non-classical aspects of drops. The quality of rejection of these algorithms is compared. Software implementations of model data generation methods have been developed. Python in the PyCharm development environment. As a result, the following data analysis methods were analyzed: N-sigma with its robust modifications, methods based on Chebyshev inequality and its robust modification on model data with standard normal distribution and contaminating such as “shift”, “scale”, Cauchy estimate. It was also decided to select the parameters of the algorithms for specific distributions over the grid. As a result of the research, it was concluded that when directly using Chebyshev inequality can be found in the classical N-sigma method, when using the “non-classical” Chebyshev inequality, a robust rejection rule is obtained that often does not concede, and sometimes surpass all other possible algorithms . For many methods, “successful” parameters were proposed for various distributions based on the maximum of the H-measure.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All |
![]() ![]() ![]() |
||||
External organizations N2 | All |
![]() |
||||
External organizations N1 | All | |||||
Internet | Authorized users SPbPU |
![]() ![]() ![]() |
||||
Internet | Authorized users (not from SPbPU, N2) |
![]() |
||||
Internet | Authorized users (not from SPbPU, N1) | |||||
![]() |
Internet | Anonymous |
Usage statistics
|
Access count: 7
Last 30 days: 0 Detailed usage statistics |