Детальная информация

Название: The study of the vision transformer architecture by explainability methods // Информатика, телекоммуникации и управление. – 2024. – Т. 17, № 1. — С. 54-64
Авторы: Utkin L. A.; Shkuropatsky V. V.; Pronikov A. N.; Rakov E. S.
Выходные сведения: 2024
Коллекция: Общая коллекция
Тематика: Вычислительная техника; Распознавание и преобразование образов; visual transformers; visual transformer architecture; explainability methods; machine learning; encoders; class activation cards; reverse propagation activation cards; визуальные трансформеры; архитектура визуальных трансформеров; методы объяснимости; машинное обучение; энкодеры; карты активации классов; карты активации обратного распространения
УДК: 004.93
ББК: 32.973-018.2
Тип документа: Статья, доклад
Тип файла: PDF
Язык: Английский
DOI: 10.18721/JCSTCS.17105
Права доступа: Свободный доступ из сети Интернет (чтение, печать, копирование)
Дополнительно: Новинка
Ключ записи: RU\SPSTU\edoc\73008

Разрешенные действия: Прочитать Загрузить (2,1 Мб)

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

The article discusses issues of explainability of the operating principles of a machine learning model. As the architecture of the model, one of the types of transformer is considered, the task of which is to classify images based on the popular "ImageNet-1000" dataset. This type of transformer is also called vision transformer and can serve either as a standalone model or as part of a more complex architecture. The explainability methods included activation maps of classes, which were calculated by applying algorithms based on forward and backward propagation of image tensors through the components of the transformer: multi-head attention layers and fully connected multilayer networks. The aim of the work is to increase the explainability of the internal processes of the functioning of the vision transformer by analyzing the obtained activation maps and calculating a metric to evaluate their explainability. The results of the study reveal patterns that reflect the mechanisms of operation of the vision transformer in solving the image classification problem, as well as evaluating the importance of the identified classification features through the use of the explainability metric.

В статье рассматриваются вопросы объяснимости принципов функционирования модели машинного обучения. В качестве архитектуры модели рассмотрен один из видов трансформера, задача которого состоит в классификации изображений на базе популярного датасета "ImageNet-1000". Данный тип трансформера также называется визуальным трансформером и может служить, как отдельной моделью, так и составляющей более сложной архитектуры. Методами объяснимости являлись карты активации классов, которые рассчитывались посредством применения алгоритмов на основе прямого и обратного распространения тензоров изображения через составные части трансформера: слои механизма внимания и полносвязанные многослойные сети. Цель работы состоит в повышении объяснимости внутренних процессов функционирования визуального трансформера за счет анализа полученных карт активации и расчета метрики оценивания их объяснимости. Результатом работы являются закономерности, отражающие механизмы работы визуального трансформера при решении задачи классификации изображения, а также оценивание степени важности выделяемых признаков классификации за счет применения метрики объяснимости.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
-> Интернет Все Прочитать Печать Загрузить

Статистика использования

stat Количество обращений: 14
За последние 30 дней: 14
Подробная статистика