Details

Title: The study of the vision transformer architecture by explainability methods // Информатика, телекоммуникации и управление. – 2024. – Т. 17, № 1. — С. 54-64
Creators: Utkin L. A.; Shkuropatsky V. V.; Pronikov A. N.; Rakov E. S.
Imprint: 2024
Collection: Общая коллекция
Subjects: Вычислительная техника; Распознавание и преобразование образов; visual transformers; visual transformer architecture; explainability methods; machine learning; encoders; class activation cards; reverse propagation activation cards; визуальные трансформеры; архитектура визуальных трансформеров; методы объяснимости; машинное обучение; энкодеры; карты активации классов; карты активации обратного распространения
UDC: 004.93
LBC: 32.973-018.2
Document type: Article, report
File type: PDF
Language: English
DOI: 10.18721/JCSTCS.17105
Rights: Свободный доступ из сети Интернет (чтение, печать, копирование)
Additionally: New arrival
Record key: RU\SPSTU\edoc\73008

Allowed Actions: Read Download (2.1 Mb)

Group: Anonymous

Network: Internet

Annotation

The article discusses issues of explainability of the operating principles of a machine learning model. As the architecture of the model, one of the types of transformer is considered, the task of which is to classify images based on the popular "ImageNet-1000" dataset. This type of transformer is also called vision transformer and can serve either as a standalone model or as part of a more complex architecture. The explainability methods included activation maps of classes, which were calculated by applying algorithms based on forward and backward propagation of image tensors through the components of the transformer: multi-head attention layers and fully connected multilayer networks. The aim of the work is to increase the explainability of the internal processes of the functioning of the vision transformer by analyzing the obtained activation maps and calculating a metric to evaluate their explainability. The results of the study reveal patterns that reflect the mechanisms of operation of the vision transformer in solving the image classification problem, as well as evaluating the importance of the identified classification features through the use of the explainability metric.

В статье рассматриваются вопросы объяснимости принципов функционирования модели машинного обучения. В качестве архитектуры модели рассмотрен один из видов трансформера, задача которого состоит в классификации изображений на базе популярного датасета "ImageNet-1000". Данный тип трансформера также называется визуальным трансформером и может служить, как отдельной моделью, так и составляющей более сложной архитектуры. Методами объяснимости являлись карты активации классов, которые рассчитывались посредством применения алгоритмов на основе прямого и обратного распространения тензоров изображения через составные части трансформера: слои механизма внимания и полносвязанные многослойные сети. Цель работы состоит в повышении объяснимости внутренних процессов функционирования визуального трансформера за счет анализа полученных карт активации и расчета метрики оценивания их объяснимости. Результатом работы являются закономерности, отражающие механизмы работы визуального трансформера при решении задачи классификации изображения, а также оценивание степени важности выделяемых признаков классификации за счет применения метрики объяснимости.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
-> Internet All Read Print Download

Usage statistics

stat Access count: 12
Last 30 days: 12
Detailed usage statistics