Детальная информация

Название: Fixing 1-bit Adam and 1-bit LAMB algorithms // Информатика, телекоммуникации и управление. – 2022. – С. 86-97
Авторы: Tarasov D. A.; Ershov V. A.
Организация: The Conference on Software Engineering and Information Management (SEIM-2022)
Выходные сведения: 2022
Коллекция: Общая коллекция
Тематика: Радиоэлектроника; Искусственный интеллект. Экспертные системы; algorithms; Adam algorithm; LAMB algorithm; machine learning; gradient descent; distributed learning (computing); neural networks; алгоритмы; алгоритм Adam; алгоритм LAMB; машинное обучение; градиентный спуск; распределенное обучение (вычислительная техника); нейронные сети
УДК: 004.8
ББК: 32.813
Тип документа: Статья, доклад
Тип файла: PDF
Язык: Английский
DOI: 10.18721/JCSTCS.15407
Права доступа: Свободный доступ из сети Интернет (чтение, печать, копирование)
Ключ записи: RU\SPSTU\edoc\70552

Разрешенные действия: Прочитать Загрузить (1,4 Мб)

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Today, various neural network models are trained using distributed learning in order to reduce the time spent. The most common way of distributed learning today is the approach, in which the data are divided into parts and sent along with the model to different devices, each device calculates updates for the model, then the updates are aggregated on the server, the server updates the weights of the model and transfers their new version to the devices. Slow network communication between devices can significantly reduce distribution efficiency. Recent studies propose one-bit versions of the Adam and LAMB algorithms, which can significantly reduce the amount of transmitted information, thus improving the scalability of training. However, it turned out that these algorithms diverge in some neural network architectures. The goal of this work is an empirical study of these algorithms, to find the solution of the discovered divergence problem and propose new aspects of testing gradient descent algorithms.

На сегодняшний день различные нейросетевые модели учат с помощью распределенного обучения, чтобы снизить затрачиваемое время. Самым распространенным способом распределенного обучения является подход, при котором данные разбиваются на части и вместе с моделью отправляются на разные устройства, каждое устройство вычисляет обновления для модели, затем обновления аггрегируются на сервере, сервер обновляет веса модели и передает их новую версию на устройства. Медленное сетевое взаимодействие, связывающее устройства, на которых происходит обучение, может значительно снизить эффективность распределения. Недавние исследования предлагают однобитные версии алгоритмов Adam и LAMB, позволяющие сократить объём передаваемой информации в несколько раз, вследствие чего масштабируемость обучения улучшается. Однако на практике оказалось, что данные алгоритмы расходятся на некоторых архитектурах нейронных сетей. Цель статьи – эмпирическое исследование указанных алгоритмов, решение обнаруженной проблемы расходимости, а также рассмотрение новых аспектов для тестирования алгоритмов градиентного спуска.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
-> Интернет Все Прочитать Печать Загрузить

Статистика использования

stat Количество обращений: 73
За последние 30 дней: 7
Подробная статистика