Детальная информация

Название: Масштабируемый поиск значимых срезов данных для отладки моделей машинного обучения: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»
Авторы: Сагадеева Светлана Алексеевна
Научный руководитель: Ицыксон Владимир Михайлович; Ахин Марат Халимович
Другие авторы: Новопашенный Андрей Гелиевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: срезы данных; отладка моделей машинного обучения; анализ данных; k-slicing; machine learning models; data analysis
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.01
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-869
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\6217

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Данная работа в области отладки моделей машинного обучения посвящена разработке средства поиска значимых срезов данных. Под значимым или «проблематичным» срезом подразумевается такое под­множество исходного датасета, на котором обученная модель демон­стрирует наихудшие результаты относительно всего набора входных данных. Предлагаемое решение позволяет анализировать срезы с пе­ресекающимися атрибутами, что при большом пространстве поиска даёт больше информации, чем формирование срезов с индивидуаль­ным (непересекающимся) набором признаков. На текущий момент, основная часть существующих работ преиму­щественно фокусируется на эвристиках, обрабатывающих небольшие датасеты. Предлагаемый алгоритм сокращает пространство поиска срезов, обеспечивая на основе анализа верхних и нижних границ мет­рик (размер, ошибка прогнозируемой величины и значение функции оптимизации) значительное сокращение списка возможных кандида­тов с гарантией целесообразности их обработки и вычисления кон­кретных метрик. В работе рассматриваются два подхода при формировании новых срезов. В одном случае рекомбинация родительских предикатов осу­ществляется на основе объединения атрибутов, входящих в их состав, в другом – их объединением. В дополнение к алгоритмическому ре­шению поставленной задачи, предложен системный подход обработки больших датасетов с применением средств параллелизации. Использо­вание возможностей PySpark призвано разрешить нагрузочные огра­ничения поиска срезов одновременно с алгоритмической и системной сторон. Экспериментальное тестирование показывает, что время выпол­нения анализа при росте как числа кортежей, так и количества признаков может стремиться к линейному за счет предлагаемых мер для отбрасывания кандидатов, дальнейшая обработка которых не имеет смысл.

Recent work on debugging machine learning (ML) models aims to find the top-k data slices (e.g., conjunctions of predicates such as “gender = female” and “degree = PhD”), where a trained model performs significantly worse than on the entire training/test data. These slices may be used to evaluate informative metrics for the problematic subsets, add rules, or otherwise improve the model. The general slice finding problem allows for overlapping slices, which is important for high quality analysis covering non-individual combinations of features and their distinct values. Existing works primarily rely on heuristics and focus on small datasets that fit in memory of a single node. We address these scalability limitations of slice finding in a holistic manner from both algorithmic and systems perspectives. Upper and lower bounds are established regarding slice sizes, errors, and objectives to facilitate effective pruning as well as alternative slice enumeration strategies. Additionally, we present local and distributed operators in order to provide processing of big datasets. Experiments over datasets show that effective pruning renders exact enumeration feasible, even for datasets with thousands of features.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 15
За последние 30 дней: 0
Подробная статистика