Таблица | Карточка | RUSMARC | |
Разрешенные действия: –
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа: Анонимные пользователи Сеть: Интернет |
Аннотация
В данной работе исследована возможность применимости многоагентного подхода к задачам глубокого обучения с подкреплением. Реализован алгоритм оптимизации политик Trust Region Policy Optimization. Изучены возможности по параллельного выполнения данного алгоритма и предложена новая архитектура его выполнения, основанная на множестве агентов, генерирующих обучающую выборку для оптимизатора. Предложенная архитектура реализована и протестирована на классических задачах обучения с подкреплением.
In this work, we researched the possibility of application of the multi-agent approach in the field of deep reinforcement learning. Trust Region Policy Optimization algorithm has been implemented. The ways of parallelizing this algorithm have been investigated. A new training workflow has been proposed. This workflow includes multiple agents, who are constantly generating the training batches for optimization in distributed environment. The proposed architecture has been implemented and tested for classic reinforcement learning tasks.
Права на использование объекта хранения
Место доступа | Группа пользователей | Действие | ||||
---|---|---|---|---|---|---|
Локальная сеть ИБК СПбПУ | Все | |||||
Интернет | Авторизованные пользователи СПбПУ | |||||
Интернет | Анонимные пользователи |
Статистика использования
Количество обращений: 41
За последние 30 дней: 0 Подробная статистика |