Details

Title Исследование эффективности применения алгоритмов одноклассовой классификации и PU-обучения: выпускная квалификационная работа магистра: направление 02.04.03 «Математическое обеспечение и администрирование информационных систем» ; образовательная программа 02.04.03_01 «Математическое обеспечение и администрирование корпоративных информационных систем»
Creators Курафеева Любовь Андреевна
Scientific adviser Тушканова Ольга Николаевна
Other creators Пархоменко Владимир Андреевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint Санкт-Петербург, 2020
Collection Выпускные квалификационные работы; Общая коллекция
Subjects одноклассовая классификация; PU-обучение; машинное обучение; обучение с частичным привлечением учителя; оne class classification; PU-learning; machine learning; semi-supervised learning
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 02.04.03
Speciality group (FGOS) 020000 - Компьютерные и информационные науки
Links Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI 10.18720/SPBPU/3/2020/vr/vr20-1040
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key ru\spstu\vkr\8266
Record create date 7/31/2020

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

В работе проведено сравнение эффективности алгоритмов одноклассовой классификации и PU-обучения (англ. Positive Unlabeled learning) на различных типах данных и при различных подходах к разыменованию исходных классов. Был выполнен обзор текущего состояния исследований в этой области и анализ сравниваемых методов. Предложены решения для текущих проблем сравнения алгоритмов. Проанализированы и выбраны специфические метрики для экспериментального сравнения. Для дальнейшего исследования реализован алгоритм PU-обучения Difference of Estimated Densities based Positive-Unlabeled Learning (DEDPUL) и алгоритм одноклассовой классификации Deep Support Vector Data Description (Deep SVDD). Выполнено экспериментальное исследование, обработка и анализ его результатов. По результатам исследования были сделаны следующие выводы. Показано, что в случаях, когда размер известной положительной выборки мал или в ней содержатся некорректно размеченные данные, эффективнее использовать алгоритм PU-обучения. В случаях сложного разыменования, с учетом входящих в отрицательные и положительные классы подклассов, алгоритмы показывают сравнимую эффективность. При работе с текстовыми и многомерными числовыми данными алгоритм PU-обучения показал лучшие результаты. При работе с наборами данных изображений результаты метрик эффективности для алгоритмов схожи. Также для изображений показана теоретическая вероятность улучшения общих результатов задачи при использовании комбинации алгоритмов одноклассовой классификации и PU-обучения. Приведены перспективы дальнейшей работы.

The given work compares the effectiveness of the algorithms of one-class classification and PU-learning (eng. Positive Unlabeled learning) on different types of data and with different approaches to dereferencing of the original classes. A review of the current state of research in this area and an analysis of the compared methods were performed. Solutions were proposed for the current problems of comparing algorithms. Specific metrics for experimental comparison were analyzed and selected. For further research, the Difference of Estimated Densities based Positive-Unlabeled Learning (DEDPUL) PU-learning algorithm and the Deep Support Vector Data Description (Deep SVDD) one-class classification algorithm are implemented. Preformed an experimental study, results were processed and analyzed. According to the results of the study, the following conclusions were made. Shown that in cases where the size of the known positive sample is small or it contains incorrectly labeled data, it is more efficient to use the PU-learning algorithm. In cases of complex dereferencing, taking into account the subclasses that are part of the negative and positive classes, the algorithms show comparable efficiency. When working with textual and multidimensional numeric data, the PU-learning algorithm has shown advantages in efficiency. When working with image data sets, the results of the efficiency metrics for the algorithms are similar. Also, for images the theoretical probability of improving the overall results of the problem using a combination of classmate classification algorithms and PU learning is shown.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 9 
Last 30 days: 0

Detailed usage statistics