Details

Title: Масштабируемый поиск значимых срезов данных для отладки моделей машинного обучения: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»
Creators: Сагадеева Светлана Алексеевна
Scientific adviser: Ицыксон Владимир Михайлович; Ахин Марат Халимович
Other creators: Новопашенный Андрей Гелиевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: срезы данных; отладка моделей машинного обучения; анализ данных; k-slicing; machine learning models; data analysis
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 09.04.01
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-869
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\6217

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Данная работа в области отладки моделей машинного обучения посвящена разработке средства поиска значимых срезов данных. Под значимым или «проблематичным» срезом подразумевается такое под­множество исходного датасета, на котором обученная модель демон­стрирует наихудшие результаты относительно всего набора входных данных. Предлагаемое решение позволяет анализировать срезы с пе­ресекающимися атрибутами, что при большом пространстве поиска даёт больше информации, чем формирование срезов с индивидуаль­ным (непересекающимся) набором признаков. На текущий момент, основная часть существующих работ преиму­щественно фокусируется на эвристиках, обрабатывающих небольшие датасеты. Предлагаемый алгоритм сокращает пространство поиска срезов, обеспечивая на основе анализа верхних и нижних границ мет­рик (размер, ошибка прогнозируемой величины и значение функции оптимизации) значительное сокращение списка возможных кандида­тов с гарантией целесообразности их обработки и вычисления кон­кретных метрик. В работе рассматриваются два подхода при формировании новых срезов. В одном случае рекомбинация родительских предикатов осу­ществляется на основе объединения атрибутов, входящих в их состав, в другом – их объединением. В дополнение к алгоритмическому ре­шению поставленной задачи, предложен системный подход обработки больших датасетов с применением средств параллелизации. Использо­вание возможностей PySpark призвано разрешить нагрузочные огра­ничения поиска срезов одновременно с алгоритмической и системной сторон. Экспериментальное тестирование показывает, что время выпол­нения анализа при росте как числа кортежей, так и количества признаков может стремиться к линейному за счет предлагаемых мер для отбрасывания кандидатов, дальнейшая обработка которых не имеет смысл.

Recent work on debugging machine learning (ML) models aims to find the top-k data slices (e.g., conjunctions of predicates such as “gender = female” and “degree = PhD”), where a trained model performs significantly worse than on the entire training/test data. These slices may be used to evaluate informative metrics for the problematic subsets, add rules, or otherwise improve the model. The general slice finding problem allows for overlapping slices, which is important for high quality analysis covering non-individual combinations of features and their distinct values. Existing works primarily rely on heuristics and focus on small datasets that fit in memory of a single node. We address these scalability limitations of slice finding in a holistic manner from both algorithmic and systems perspectives. Upper and lower bounds are established regarding slice sizes, errors, and objectives to facilitate effective pruning as well as alternative slice enumeration strategies. Additionally, we present local and distributed operators in order to provide processing of big datasets. Experiments over datasets show that effective pruning renders exact enumeration feasible, even for datasets with thousands of features.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
External organizations N2 All Read
External organizations N1 All
Internet Authorized users SPbPU Read Print Download
Internet Authorized users (not from SPbPU, N2) Read
Internet Authorized users (not from SPbPU, N1)
-> Internet Anonymous

Usage statistics

stat Access count: 13
Last 30 days: 0
Detailed usage statistics