Details

Title: Исследование применимости многоагентных архитектур для повышения эффективности алгоритмов обучения с подкреплением: выпускная квалификационная работа магистра: 02.04.03 - Математическое обеспечение и администрирование информационных систем ; 02.04.03_01 - Математическое обеспечение и администрирование корпоративных информационных систем
Creators: Клеверов Денис Анатольевич
Scientific adviser: Щукин Александр Валентинович
Other creators: Колосова Ольга Владимировна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2019
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: машинное обучение; обучение с подкреплением; глубокое обучение; распределенные вычисления
UDC: 004.85
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Speciality code (FGOS): 02.04.03
Speciality group (FGOS): 020000 - Компьютерные и информационные науки
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2019/vr/vr19-937
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В данной работе исследована возможность применимости многоагентного подхода к задачам глубокого обучения с подкреплением. Реализован алгоритм оптимизации политик Trust Region Policy Optimization. Изучены возможности по параллельного выполнения данного алгоритма и предложена новая архитектура его выполнения, основанная на множестве агентов, генерирующих обучающую выборку для оптимизатора. Предложенная архитектура реализована и протестирована на классических задачах обучения с подкреплением.

In this work, we researched the possibility of application of the multi-agent approach in the field of deep reinforcement learning. Trust Region Policy Optimization algorithm has been implemented. The ways of parallelizing this algorithm have been investigated. A new training workflow has been proposed. This workflow includes multiple agents, who are constantly generating the training batches for optimization in distributed environment. The proposed architecture has been implemented and tested for classic reinforcement learning tasks.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 35
Last 30 days: 0
Detailed usage statistics