Детальная информация

Клеверов, Денис Анатольевич. Исследование применимости многоагентных архитектур для повышения эффективности алгоритмов обучения с подкреплением [Электронный ресурс] = The research of applicability of multi-agent architectures to improve the efficiency of reinforcement learning algorithms: выпускная квалификационная работа магистра: 02.04.03 - Математическое обеспечение и администрирование информационных систем ; 02.04.03_01 - Математическое обеспечение и администрирование корпоративных информационных систем / Д. А. Клеверов; Санкт-Петербургский политехнический университет Петра Великого, Институт компьютерных наук и технологий ; науч. рук. А. В. Щукин ; консультант по нормоконтролю О. В. Колосова. — Электрон. текстовые дан. (1 файл : 1,6 Мб). — Санкт-Петербург, 2019. — Загл. с титул. экрана. — Свободный доступ из сети Интернет (чтение, печать, копирование). — Adobe Acrobat Reader 7.0. — <URL:http://elib.spbstu.ru/dl/3/2019/vr/vr19-937.pdf>. — <URL:http://doi.org/10.18720/SPBPU/3/2019/vr/vr19-937>. — <URL:http://elib.spbstu.ru/dl/3/2019/vr/rev/vr19-937-o.pdf>. — <URL:http://elib.spbstu.ru/dl/3/2019/vr/rev/vr19-937-r.pdf>. — <URL:http://elib.spbstu.ru/dl/3/2019/vr/rev/vr19-937-a.pdf>.

Дата создания записи: 18.09.2019

Тематика: машинное обучение; обучение с подкреплением; глубокое обучение; распределенные вычисления; machine learning; reinforcement learning; deep learning; trust regions policy optimization; distributed computations

Коллекции: Выпускные квалификационные работы; Общая коллекция

Ссылки: DOI; Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований

Разрешенные действия: Прочитать Загрузить (1,6 Мб) Для чтения документа необходим Flash Player

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В данной работе исследована возможность применимости многоагентного подхода к задачам глубокого обучения с подкреплением. Реализован алгоритм оптимизации политик Trust Region Policy Optimization. Изучены возможности по параллельного выполнения данного алгоритма и предложена новая архитектура его выполнения, основанная на множестве агентов, генерирующих обучающую выборку для оптимизатора. Предложенная архитектура реализована и протестирована на классических задачах обучения с подкреплением.

In this work, we researched the possibility of application of the multi-agent approach in the field of deep reinforcement learning. Trust Region Policy Optimization algorithm has been implemented. The ways of parallelizing this algorithm have been investigated. A new training workflow has been proposed. This workflow includes multiple agents, who are constantly generating the training batches for optimization in distributed environment. The proposed architecture has been implemented and tested for classic reinforcement learning tasks.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
-> Интернет Все Прочитать Печать Загрузить

Статистика использования документа

stat Количество обращений: 14
За последние 30 дней: 4
Подробная статистика