Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Данная работа в области отладки моделей машинного обучения посвящена разработке средства поиска значимых срезов данных. Под значимым или «проблематичным» срезом подразумевается такое подмножество исходного датасета, на котором обученная модель демонстрирует наихудшие результаты относительно всего набора входных данных. Предлагаемое решение позволяет анализировать срезы с пересекающимися атрибутами, что при большом пространстве поиска даёт больше информации, чем формирование срезов с индивидуальным (непересекающимся) набором признаков. На текущий момент, основная часть существующих работ преимущественно фокусируется на эвристиках, обрабатывающих небольшие датасеты. Предлагаемый алгоритм сокращает пространство поиска срезов, обеспечивая на основе анализа верхних и нижних границ метрик (размер, ошибка прогнозируемой величины и значение функции оптимизации) значительное сокращение списка возможных кандидатов с гарантией целесообразности их обработки и вычисления конкретных метрик. В работе рассматриваются два подхода при формировании новых срезов. В одном случае рекомбинация родительских предикатов осуществляется на основе объединения атрибутов, входящих в их состав, в другом – их объединением. В дополнение к алгоритмическому решению поставленной задачи, предложен системный подход обработки больших датасетов с применением средств параллелизации. Использование возможностей PySpark призвано разрешить нагрузочные ограничения поиска срезов одновременно с алгоритмической и системной сторон. Экспериментальное тестирование показывает, что время выполнения анализа при росте как числа кортежей, так и количества признаков может стремиться к линейному за счет предлагаемых мер для отбрасывания кандидатов, дальнейшая обработка которых не имеет смысл.
Recent work on debugging machine learning (ML) models aims to find the top-k data slices (e.g., conjunctions of predicates such as “gender = female” and “degree = PhD”), where a trained model performs significantly worse than on the entire training/test data. These slices may be used to evaluate informative metrics for the problematic subsets, add rules, or otherwise improve the model. The general slice finding problem allows for overlapping slices, which is important for high quality analysis covering non-individual combinations of features and their distinct values. Existing works primarily rely on heuristics and focus on small datasets that fit in memory of a single node. We address these scalability limitations of slice finding in a holistic manner from both algorithmic and systems perspectives. Upper and lower bounds are established regarding slice sizes, errors, and objectives to facilitate effective pruning as well as alternative slice enumeration strategies. Additionally, we present local and distributed operators in order to provide processing of big datasets. Experiments over datasets show that effective pruning renders exact enumeration feasible, even for datasets with thousands of features.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Usage statistics
Access count: 15
Last 30 days: 0 Detailed usage statistics |