В работе проанализированы методы выявления вредоносного программного обеспечения, основанные на машинном обучении. Выявлены недостатки применяемых признаков. Построено векторное представление ассемблерных инструкций, сохраняющее семантику. Построен многоуровневый классификатор программ, который позволяет проводить анализ на трёх уровнях представления – программном, функциональном и ассемблерном. Предложена система для построения векторного пространства путей выполнения функций.
This paper presents the analysis of machine learning-based malware detection methods. The weaknesses of the features used in these methods are detected. The assembly instructions representation that preserves semantics is developed. The multilevel classifier of programs is developed. This classifier allow analysing three levels of representation - program, function and assembly. The system for constructing the vector space of function execution paths is proposed.