Масштабируемый поиск значимых срезов данных для отладки моделей машинного обучения: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»

Сагадеева, Светлана Алексеевна

Details

Title	Масштабируемый поиск значимых срезов данных для отладки моделей машинного обучения: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»
Creators	Сагадеева Светлана Алексеевна
Scientific adviser	Ицыксон Владимир Михайлович ; Ахин Марат Халимович
Other creators	Новопашенный Андрей Гелиевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint	Санкт-Петербург, 2020
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	срезы данных ; отладка моделей машинного обучения ; анализ данных ; k-slicing ; machine learning models ; data analysis
Document type	Master graduation qualification work
Language	Russian
Level of education	Master
Speciality code (FGOS)	09.04.01
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
Links	Отзыв руководителя ; Рецензия ; Отчет о проверке на объем и корректность внешних заимствований
DOI	10.18720/SPBPU/3/2020/vr/vr20-869
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key	ru\spstu\vkr\6217
Record create date	6/29/2020

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Данная работа в области отладки моделей машинного обучения посвящена разработке средства поиска значимых срезов данных. Под значимым или «проблематичным» срезом подразумевается такое подмножество исходного датасета, на котором обученная модель демонстрирует наихудшие результаты относительно всего набора входных данных. Предлагаемое решение позволяет анализировать срезы с пересекающимися атрибутами, что при большом пространстве поиска даёт больше информации, чем формирование срезов с индивидуальным (непересекающимся) набором признаков. На текущий момент, основная часть существующих работ преимущественно фокусируется на эвристиках, обрабатывающих небольшие датасеты. Предлагаемый алгоритм сокращает пространство поиска срезов, обеспечивая на основе анализа верхних и нижних границ метрик (размер, ошибка прогнозируемой величины и значение функции оптимизации) значительное сокращение списка возможных кандидатов с гарантией целесообразности их обработки и вычисления конкретных метрик. В работе рассматриваются два подхода при формировании новых срезов. В одном случае рекомбинация родительских предикатов осуществляется на основе объединения атрибутов, входящих в их состав, в другом – их объединением. В дополнение к алгоритмическому решению поставленной задачи, предложен системный подход обработки больших датасетов с применением средств параллелизации. Использование возможностей PySpark призвано разрешить нагрузочные ограничения поиска срезов одновременно с алгоритмической и системной сторон. Экспериментальное тестирование показывает, что время выполнения анализа при росте как числа кортежей, так и количества признаков может стремиться к линейному за счет предлагаемых мер для отбрасывания кандидатов, дальнейшая обработка которых не имеет смысл.

Recent work on debugging machine learning (ML) models aims to find the top-k data slices (e.g., conjunctions of predicates such as “gender = female” and “degree = PhD”), where a trained model performs significantly worse than on the entire training/test data. These slices may be used to evaluate informative metrics for the problematic subsets, add rules, or otherwise improve the model. The general slice finding problem allows for overlapping slices, which is important for high quality analysis covering non-individual combinations of features and their distinct values. Existing works primarily rely on heuristics and focus on small datasets that fit in memory of a single node. We address these scalability limitations of slice finding in a holistic manner from both algorithmic and systems perspectives. Upper and lower bounds are established regarding slice sizes, errors, and objectives to facilitate effective pruning as well as alternative slice enumeration strategies. Additionally, we present local and distributed operators in order to provide processing of big datasets. Experiments over datasets show that effective pruning renders exact enumeration feasible, even for datasets with thousands of features.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 16
Last 30 days: 0

Detailed usage statistics