Исследование эффективности применения алгоритмов одноклассовой классификации и PU-обучения: выпускная квалификационная работа магистра: направление 02.04.03 «Математическое обеспечение и администрирование информационных систем» ; образовательная программа 02.04.03_01 «Математическое обеспечение и администрирование корпоративных информационных систем» = Research of the efficiency of one-class classification and PU-learning algorithms

Курафеева, Любовь Андреевна

Details

Title	Исследование эффективности применения алгоритмов одноклассовой классификации и PU-обучения: выпускная квалификационная работа магистра: направление 02.04.03 «Математическое обеспечение и администрирование информационных систем» ; образовательная программа 02.04.03_01 «Математическое обеспечение и администрирование корпоративных информационных систем» = Research of the efficiency of one-class classification and PU-learning algorithms
Creators	Курафеева Любовь Андреевна
Scientific adviser	Тушканова Ольга Николаевна
Other creators	Пархоменко Владимир Андреевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint	Санкт-Петербург, 2020
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	одноклассовая классификация ; PU-обучение ; машинное обучение ; обучение с частичным привлечением учителя ; оne class classification ; PU-learning ; machine learning ; semi-supervised learning
Document type	Master graduation qualification work
Language	Russian
Level of education	Master
Speciality code (FGOS)	02.04.03
Speciality group (FGOS)	020000 - Компьютерные и информационные науки
Links	Отзыв руководителя ; Рецензия ; Отчет о проверке на объем и корректность внешних заимствований
DOI	10.18720/SPBPU/3/2020/vr/vr20-1040
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key	ru\spstu\vkr\8266
Record create date	7/31/2020

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

В работе проведено сравнение эффективности алгоритмов одноклассовой классификации и PU-обучения (англ. Positive Unlabeled learning) на различных типах данных и при различных подходах к разыменованию исходных классов. Был выполнен обзор текущего состояния исследований в этой области и анализ сравниваемых методов. Предложены решения для текущих проблем сравнения алгоритмов. Проанализированы и выбраны специфические метрики для экспериментального сравнения. Для дальнейшего исследования реализован алгоритм PU-обучения Difference of Estimated Densities based Positive-Unlabeled Learning (DEDPUL) и алгоритм одноклассовой классификации Deep Support Vector Data Description (Deep SVDD). Выполнено экспериментальное исследование, обработка и анализ его результатов. По результатам исследования были сделаны следующие выводы. Показано, что в случаях, когда размер известной положительной выборки мал или в ней содержатся некорректно размеченные данные, эффективнее использовать алгоритм PU-обучения. В случаях сложного разыменования, с учетом входящих в отрицательные и положительные классы подклассов, алгоритмы показывают сравнимую эффективность. При работе с текстовыми и многомерными числовыми данными алгоритм PU-обучения показал лучшие результаты. При работе с наборами данных изображений результаты метрик эффективности для алгоритмов схожи. Также для изображений показана теоретическая вероятность улучшения общих результатов задачи при использовании комбинации алгоритмов одноклассовой классификации и PU-обучения. Приведены перспективы дальнейшей работы.

The given work compares the effectiveness of the algorithms of one-class classification and PU-learning (eng. Positive Unlabeled learning) on different types of data and with different approaches to dereferencing of the original classes. A review of the current state of research in this area and an analysis of the compared methods were performed. Solutions were proposed for the current problems of comparing algorithms. Specific metrics for experimental comparison were analyzed and selected. For further research, the Difference of Estimated Densities based Positive-Unlabeled Learning (DEDPUL) PU-learning algorithm and the Deep Support Vector Data Description (Deep SVDD) one-class classification algorithm are implemented. Preformed an experimental study, results were processed and analyzed. According to the results of the study, the following conclusions were made. Shown that in cases where the size of the known positive sample is small or it contains incorrectly labeled data, it is more efficient to use the PU-learning algorithm. In cases of complex dereferencing, taking into account the subclasses that are part of the negative and positive classes, the algorithms show comparable efficiency. When working with textual and multidimensional numeric data, the PU-learning algorithm has shown advantages in efficiency. When working with image data sets, the results of the efficiency metrics for the algorithms are similar. Also, for images the theoretical probability of improving the overall results of the problem using a combination of classmate classification algorithms and PU learning is shown.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Исследование эффективности применения алгоритмов одноклассовой классификации и PU-обучения
- Введение
- 1. Обзор алгоритмов и методов одноклассовой классификации и PU-обучения
- 2. Особенности методов и метрик сравнения эффективности алгоритмов PU-обучения с алгоритмами одноклассовой классификации
- 3. Подготовка данных для сравнения алгоритмов
- 4. Программная реализация
- 5. Экспериментальное исследование алгоритмов
- Заключение
- Список использованных источников
- Приложение 1. Общий код сравнения
- Приложение 2. Код сравнения синтетических данных методом PU-обучения
- Приложение 3. Код выполнения запуска метода одноклассовой классификации на примере синтетических многомерных числовых данных
- Приложение 4. Код создания и использования набора данных в одноклассовой классификации на примере изображений
- Приложение 5. Код создания нейронных сетей для работы метода одноклассовой классификации на примере изображений
- Приложение 6. Код работы оптимизаторов нейронных сетей для алгоритма одноклассовой классификации
- Приложение 7. Код создания нейронных сетей для работы метода PU-обучения
- Приложение 8. Код работы алгоритма PU-обучения

Access count: 9
Last 30 days: 0

Detailed usage statistics