Исследование применимости многоагентных архитектур для повышения эффективности алгоритмов обучения с подкреплением: выпускная квалификационная работа магистра: 02.04.03 - Математическое обеспечение и администрирование информационных систем ; 02.04.03_01 - Математическое обеспечение и администрирование корпоративных информационных систем = The research of applicability of multi-agent architectures to improve the efficiency of reinforcement learning algorithms

Клеверов, Денис Анатольевич

Details

Title	Исследование применимости многоагентных архитектур для повышения эффективности алгоритмов обучения с подкреплением: выпускная квалификационная работа магистра: 02.04.03 - Математическое обеспечение и администрирование информационных систем ; 02.04.03_01 - Математическое обеспечение и администрирование корпоративных информационных систем = The research of applicability of multi-agent architectures to improve the efficiency of reinforcement learning algorithms
Creators	Клеверов Денис Анатольевич
Scientific adviser	Щукин Александр Валентинович
Other creators	Колосова Ольга Владимировна
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint	Санкт-Петербург, 2019
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	машинное обучение ; обучение с подкреплением ; глубокое обучение ; распределенные вычисления
UDC	004.85
Document type	Master graduation qualification work
Language	Russian
Level of education	Master
Speciality code (FGOS)	02.04.03
Speciality group (FGOS)	020000 - Компьютерные и информационные науки
Links	Отзыв руководителя ; Рецензия ; Отчет о проверке на объем и корректность внешних заимствований
DOI	10.18720/SPBPU/3/2019/vr/vr19-937
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key	ru\spstu\vkr\1986
Record create date	9/18/2019

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

В данной работе исследована возможность применимости многоагентного подхода к задачам глубокого обучения с подкреплением. Реализован алгоритм оптимизации политик Trust Region Policy Optimization. Изучены возможности по параллельного выполнения данного алгоритма и предложена новая архитектура его выполнения, основанная на множестве агентов, генерирующих обучающую выборку для оптимизатора. Предложенная архитектура реализована и протестирована на классических задачах обучения с подкреплением.

In this work, we researched the possibility of application of the multi-agent approach in the field of deep reinforcement learning. Trust Region Policy Optimization algorithm has been implemented. The ways of parallelizing this algorithm have been investigated. A new training workflow has been proposed. This workflow includes multiple agents, who are constantly generating the training batches for optimization in distributed environment. The proposed architecture has been implemented and tested for classic reinforcement learning tasks.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 42
Last 30 days: 0

Detailed usage statistics