Детальная информация

Название: Исследование применимости многоагентных архитектур для повышения эффективности алгоритмов обучения с подкреплением: выпускная квалификационная работа магистра: 02.04.03 - Математическое обеспечение и администрирование информационных систем ; 02.04.03_01 - Математическое обеспечение и администрирование корпоративных информационных систем
Авторы: Клеверов Денис Анатольевич
Научный руководитель: Щукин Александр Валентинович
Другие авторы: Колосова Ольга Владимировна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2019
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: машинное обучение; обучение с подкреплением; глубокое обучение; распределенные вычисления
УДК: 004.85
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Код специальности ФГОС: 02.04.03
Группа специальностей ФГОС: 020000 - Компьютерные и информационные науки
Ссылки: http://doi.org/10.18720/SPBPU/3/2019/vr/vr19-937; http://elib.spbstu.ru/dl/3/2019/vr/rev/vr19-937-o.pdf; http://elib.spbstu.ru/dl/3/2019/vr/rev/vr19-937-r.pdf; http://elib.spbstu.ru/dl/3/2019/vr/rev/vr19-937-a.pdf
Права доступа: Свободный доступ из сети Интернет (чтение, печать, копирование)

Разрешенные действия: Прочитать Загрузить (1,6 Мб) Для чтения документа необходим Flash Player

Группа: Анонимные пользователи

Сеть: Локальная сеть ИБК СПбПУ

Аннотация

В данной работе исследована возможность применимости многоагентного подхода к задачам глубокого обучения с подкреплением. Реализован алгоритм оптимизации политик Trust Region Policy Optimization. Изучены возможности по параллельного выполнения данного алгоритма и предложена новая архитектура его выполнения, основанная на множестве агентов, генерирующих обучающую выборку для оптимизатора. Предложенная архитектура реализована и протестирована на классических задачах обучения с подкреплением.

In this work, we researched the possibility of application of the multi-agent approach in the field of deep reinforcement learning. Trust Region Policy Optimization algorithm has been implemented. The ways of parallelizing this algorithm have been investigated. A new training workflow has been proposed. This workflow includes multiple agents, who are constantly generating the training batches for optimization in distributed environment. The proposed architecture has been implemented and tested for classic reinforcement learning tasks.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
-> Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Все Прочитать Печать Загрузить

Статистика использования документа

stat Количество обращений: 19
За последние 30 дней: 3
Подробная статистика