Details

Title: Fixing 1-bit Adam and 1-bit LAMB algorithms // Информатика, телекоммуникации и управление. – 2022. – С. 86-97
Creators: Tarasov D. A.; Ershov V. A.
Organization: The Conference on Software Engineering and Information Management (SEIM-2022)
Imprint: 2022
Collection: Общая коллекция
Subjects: Радиоэлектроника; Искусственный интеллект. Экспертные системы; algorithms; Adam algorithm; LAMB algorithm; machine learning; gradient descent; distributed learning (computing); neural networks; алгоритмы; алгоритм Adam; алгоритм LAMB; машинное обучение; градиентный спуск; распределенное обучение (вычислительная техника); нейронные сети
UDC: 004.8
LBC: 32.813
Document type: Article, report
File type: PDF
Language: English
DOI: 10.18721/JCSTCS.15407
Rights: Свободный доступ из сети Интернет (чтение, печать, копирование)
Record key: RU\SPSTU\edoc\70552

Allowed Actions: Read Download (1.4 Mb)

Group: Anonymous

Network: Internet

Annotation

Today, various neural network models are trained using distributed learning in order to reduce the time spent. The most common way of distributed learning today is the approach, in which the data are divided into parts and sent along with the model to different devices, each device calculates updates for the model, then the updates are aggregated on the server, the server updates the weights of the model and transfers their new version to the devices. Slow network communication between devices can significantly reduce distribution efficiency. Recent studies propose one-bit versions of the Adam and LAMB algorithms, which can significantly reduce the amount of transmitted information, thus improving the scalability of training. However, it turned out that these algorithms diverge in some neural network architectures. The goal of this work is an empirical study of these algorithms, to find the solution of the discovered divergence problem and propose new aspects of testing gradient descent algorithms.

На сегодняшний день различные нейросетевые модели учат с помощью распределенного обучения, чтобы снизить затрачиваемое время. Самым распространенным способом распределенного обучения является подход, при котором данные разбиваются на части и вместе с моделью отправляются на разные устройства, каждое устройство вычисляет обновления для модели, затем обновления аггрегируются на сервере, сервер обновляет веса модели и передает их новую версию на устройства. Медленное сетевое взаимодействие, связывающее устройства, на которых происходит обучение, может значительно снизить эффективность распределения. Недавние исследования предлагают однобитные версии алгоритмов Adam и LAMB, позволяющие сократить объём передаваемой информации в несколько раз, вследствие чего масштабируемость обучения улучшается. Однако на практике оказалось, что данные алгоритмы расходятся на некоторых архитектурах нейронных сетей. Цель статьи – эмпирическое исследование указанных алгоритмов, решение обнаруженной проблемы расходимости, а также рассмотрение новых аспектов для тестирования алгоритмов градиентного спуска.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
-> Internet All Read Print Download

Usage statistics

stat Access count: 66
Last 30 days: 8
Detailed usage statistics