Details
Title | Исследование эффективности применения алгоритмов одноклассовой классификации и PU-обучения: выпускная квалификационная работа магистра: направление 02.04.03 «Математическое обеспечение и администрирование информационных систем» ; образовательная программа 02.04.03_01 «Математическое обеспечение и администрирование корпоративных информационных систем» |
---|---|
Creators | Курафеева Любовь Андреевна |
Scientific adviser | Тушканова Ольга Николаевна |
Other creators | Пархоменко Владимир Андреевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий |
Imprint | Санкт-Петербург, 2020 |
Collection | Выпускные квалификационные работы; Общая коллекция |
Subjects | одноклассовая классификация; PU-обучение; машинное обучение; обучение с частичным привлечением учителя; оne class classification; PU-learning; machine learning; semi-supervised learning |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 02.04.03 |
Speciality group (FGOS) | 020000 - Компьютерные и информационные науки |
Links | Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований |
DOI | 10.18720/SPBPU/3/2020/vr/vr20-1040 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Record key | ru\spstu\vkr\8266 |
Record create date | 7/31/2020 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
В работе проведено сравнение эффективности алгоритмов одноклассовой классификации и PU-обучения (англ. Positive Unlabeled learning) на различных типах данных и при различных подходах к разыменованию исходных классов. Был выполнен обзор текущего состояния исследований в этой области и анализ сравниваемых методов. Предложены решения для текущих проблем сравнения алгоритмов. Проанализированы и выбраны специфические метрики для экспериментального сравнения. Для дальнейшего исследования реализован алгоритм PU-обучения Difference of Estimated Densities based Positive-Unlabeled Learning (DEDPUL) и алгоритм одноклассовой классификации Deep Support Vector Data Description (Deep SVDD). Выполнено экспериментальное исследование, обработка и анализ его результатов. По результатам исследования были сделаны следующие выводы. Показано, что в случаях, когда размер известной положительной выборки мал или в ней содержатся некорректно размеченные данные, эффективнее использовать алгоритм PU-обучения. В случаях сложного разыменования, с учетом входящих в отрицательные и положительные классы подклассов, алгоритмы показывают сравнимую эффективность. При работе с текстовыми и многомерными числовыми данными алгоритм PU-обучения показал лучшие результаты. При работе с наборами данных изображений результаты метрик эффективности для алгоритмов схожи. Также для изображений показана теоретическая вероятность улучшения общих результатов задачи при использовании комбинации алгоритмов одноклассовой классификации и PU-обучения. Приведены перспективы дальнейшей работы.
The given work compares the effectiveness of the algorithms of one-class classification and PU-learning (eng. Positive Unlabeled learning) on different types of data and with different approaches to dereferencing of the original classes. A review of the current state of research in this area and an analysis of the compared methods were performed. Solutions were proposed for the current problems of comparing algorithms. Specific metrics for experimental comparison were analyzed and selected. For further research, the Difference of Estimated Densities based Positive-Unlabeled Learning (DEDPUL) PU-learning algorithm and the Deep Support Vector Data Description (Deep SVDD) one-class classification algorithm are implemented. Preformed an experimental study, results were processed and analyzed. According to the results of the study, the following conclusions were made. Shown that in cases where the size of the known positive sample is small or it contains incorrectly labeled data, it is more efficient to use the PU-learning algorithm. In cases of complex dereferencing, taking into account the subclasses that are part of the negative and positive classes, the algorithms show comparable efficiency. When working with textual and multidimensional numeric data, the PU-learning algorithm has shown advantages in efficiency. When working with image data sets, the results of the efficiency metrics for the algorithms are similar. Also, for images the theoretical probability of improving the overall results of the problem using a combination of classmate classification algorithms and PU learning is shown.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 9
Last 30 days: 0