Исследование эффективности применения алгоритмов одноклассовой классификации и PU-обучения: выпускная квалификационная работа магистра: направление 02.04.03 «Математическое обеспечение и администрирование информационных систем» ; образовательная программа 02.04.03_01 «Математическое обеспечение и администрирование корпоративных информационных систем»

Курафеева, Любовь Андреевна

Детальная информация

Название	Исследование эффективности применения алгоритмов одноклассовой классификации и PU-обучения: выпускная квалификационная работа магистра: направление 02.04.03 «Математическое обеспечение и администрирование информационных систем» ; образовательная программа 02.04.03_01 «Математическое обеспечение и администрирование корпоративных информационных систем»
Авторы	Курафеева Любовь Андреевна
Научный руководитель	Тушканова Ольга Николаевна
Другие авторы	Пархоменко Владимир Андреевич
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения	Санкт-Петербург, 2020
Коллекция	Выпускные квалификационные работы; Общая коллекция
Тематика	одноклассовая классификация; PU-обучение; машинное обучение; обучение с частичным привлечением учителя; оne class classification; PU-learning; machine learning; semi-supervised learning
Тип документа	Выпускная квалификационная работа магистра
Тип файла	PDF
Язык	Русский
Уровень высшего образования	Магистратура
Код специальности ФГОС	02.04.03
Группа специальностей ФГОС	020000 - Компьютерные и информационные науки
Ссылки	Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI	10.18720/SPBPU/3/2020/vr/vr20-1040
Права доступа	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи	ru\spstu\vkr\8266
Дата создания записи	31.07.2020

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

В работе проведено сравнение эффективности алгоритмов одноклассовой классификации и PU-обучения (англ. Positive Unlabeled learning) на различных типах данных и при различных подходах к разыменованию исходных классов. Был выполнен обзор текущего состояния исследований в этой области и анализ сравниваемых методов. Предложены решения для текущих проблем сравнения алгоритмов. Проанализированы и выбраны специфические метрики для экспериментального сравнения. Для дальнейшего исследования реализован алгоритм PU-обучения Difference of Estimated Densities based Positive-Unlabeled Learning (DEDPUL) и алгоритм одноклассовой классификации Deep Support Vector Data Description (Deep SVDD). Выполнено экспериментальное исследование, обработка и анализ его результатов. По результатам исследования были сделаны следующие выводы. Показано, что в случаях, когда размер известной положительной выборки мал или в ней содержатся некорректно размеченные данные, эффективнее использовать алгоритм PU-обучения. В случаях сложного разыменования, с учетом входящих в отрицательные и положительные классы подклассов, алгоритмы показывают сравнимую эффективность. При работе с текстовыми и многомерными числовыми данными алгоритм PU-обучения показал лучшие результаты. При работе с наборами данных изображений результаты метрик эффективности для алгоритмов схожи. Также для изображений показана теоретическая вероятность улучшения общих результатов задачи при использовании комбинации алгоритмов одноклассовой классификации и PU-обучения. Приведены перспективы дальнейшей работы.

The given work compares the effectiveness of the algorithms of one-class classification and PU-learning (eng. Positive Unlabeled learning) on different types of data and with different approaches to dereferencing of the original classes. A review of the current state of research in this area and an analysis of the compared methods were performed. Solutions were proposed for the current problems of comparing algorithms. Specific metrics for experimental comparison were analyzed and selected. For further research, the Difference of Estimated Densities based Positive-Unlabeled Learning (DEDPUL) PU-learning algorithm and the Deep Support Vector Data Description (Deep SVDD) one-class classification algorithm are implemented. Preformed an experimental study, results were processed and analyzed. According to the results of the study, the following conclusions were made. Shown that in cases where the size of the known positive sample is small or it contains incorrectly labeled data, it is more efficient to use the PU-learning algorithm. In cases of complex dereferencing, taking into account the subclasses that are part of the negative and positive classes, the algorithms show comparable efficiency. When working with textual and multidimensional numeric data, the PU-learning algorithm has shown advantages in efficiency. When working with image data sets, the results of the efficiency metrics for the algorithms are similar. Also, for images the theoretical probability of improving the overall results of the problem using a combination of classmate classification algorithms and PU learning is shown.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Количество обращений: 9
За последние 30 дней: 0

Подробная статистика