Масштабируемый поиск значимых срезов данных для отладки моделей машинного обучения: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»

Сагадеева, Светлана Алексеевна

Вход в систему

Детальная информация

	Таблица	Карточка	RUSMARC

Название:	Масштабируемый поиск значимых срезов данных для отладки моделей машинного обучения: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»
Авторы:	Сагадеева Светлана Алексеевна
Научный руководитель:	Ицыксон Владимир Михайлович; Ахин Марат Халимович
Другие авторы:	Новопашенный Андрей Гелиевич
Организация:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения:	Санкт-Петербург, 2020
Коллекция:	Выпускные квалификационные работы; Общая коллекция
Тематика:	срезы данных; отладка моделей машинного обучения; анализ данных; k-slicing; machine learning models; data analysis
Тип документа:	Выпускная квалификационная работа магистра
Тип файла:	PDF
Язык:	Русский
Уровень высшего образования:	Магистратура
Код специальности ФГОС:	09.04.01
Группа специальностей ФГОС:	090000 - Информатика и вычислительная техника
Ссылки:	Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI:	10.18720/SPBPU/3/2020/vr/vr20-869
Права доступа:	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи:	ru\spstu\vkr\6217

Разрешенные действия: –

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Данная работа в области отладки моделей машинного обучения посвящена разработке средства поиска значимых срезов данных. Под значимым или «проблематичным» срезом подразумевается такое подмножество исходного датасета, на котором обученная модель демонстрирует наихудшие результаты относительно всего набора входных данных. Предлагаемое решение позволяет анализировать срезы с пересекающимися атрибутами, что при большом пространстве поиска даёт больше информации, чем формирование срезов с индивидуальным (непересекающимся) набором признаков. На текущий момент, основная часть существующих работ преимущественно фокусируется на эвристиках, обрабатывающих небольшие датасеты. Предлагаемый алгоритм сокращает пространство поиска срезов, обеспечивая на основе анализа верхних и нижних границ метрик (размер, ошибка прогнозируемой величины и значение функции оптимизации) значительное сокращение списка возможных кандидатов с гарантией целесообразности их обработки и вычисления конкретных метрик. В работе рассматриваются два подхода при формировании новых срезов. В одном случае рекомбинация родительских предикатов осуществляется на основе объединения атрибутов, входящих в их состав, в другом – их объединением. В дополнение к алгоритмическому решению поставленной задачи, предложен системный подход обработки больших датасетов с применением средств параллелизации. Использование возможностей PySpark призвано разрешить нагрузочные ограничения поиска срезов одновременно с алгоритмической и системной сторон. Экспериментальное тестирование показывает, что время выполнения анализа при росте как числа кортежей, так и количества признаков может стремиться к линейному за счет предлагаемых мер для отбрасывания кандидатов, дальнейшая обработка которых не имеет смысл.

Recent work on debugging machine learning (ML) models aims to find the top-k data slices (e.g., conjunctions of predicates such as “gender = female” and “degree = PhD”), where a trained model performs significantly worse than on the entire training/test data. These slices may be used to evaluate informative metrics for the problematic subsets, add rules, or otherwise improve the model. The general slice finding problem allows for overlapping slices, which is important for high quality analysis covering non-individual combinations of features and their distinct values. Existing works primarily rely on heuristics and focus on small datasets that fit in memory of a single node. We address these scalability limitations of slice finding in a holistic manner from both algorithmic and systems perspectives. Upper and lower bounds are established regarding slice sizes, errors, and objectives to facilitate effective pruning as well as alternative slice enumeration strategies. Additionally, we present local and distributed operators in order to provide processing of big datasets. Experiments over datasets show that effective pruning renders exact enumeration feasible, even for datasets with thousands of features.

Права на использование объекта хранения

	Место доступа		Группа пользователей		Действие
	Локальная сеть ИБК СПбПУ		Все
	Интернет		Авторизованные пользователи СПбПУ
	Интернет		Анонимные пользователи

Статистика использования

Количество обращений: 15
За последние 30 дней: 0
Подробная статистика