Детальная информация
Название | Исследование применимости многоагентных архитектур для повышения эффективности алгоритмов обучения с подкреплением: выпускная квалификационная работа магистра: 02.04.03 - Математическое обеспечение и администрирование информационных систем ; 02.04.03_01 - Математическое обеспечение и администрирование корпоративных информационных систем |
---|---|
Авторы | Клеверов Денис Анатольевич |
Научный руководитель | Щукин Александр Валентинович |
Другие авторы | Колосова Ольга Владимировна |
Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий |
Выходные сведения | Санкт-Петербург, 2019 |
Коллекция | Выпускные квалификационные работы ; Общая коллекция |
Тематика | машинное обучение ; обучение с подкреплением ; глубокое обучение ; распределенные вычисления |
УДК | 004.85 |
Тип документа | Выпускная квалификационная работа магистра |
Тип файла | |
Язык | Русский |
Уровень высшего образования | Магистратура |
Код специальности ФГОС | 02.04.03 |
Группа специальностей ФГОС | 020000 - Компьютерные и информационные науки |
Ссылки | Отзыв руководителя ; Рецензия ; Отчет о проверке на объем и корректность внешних заимствований |
DOI | 10.18720/SPBPU/3/2019/vr/vr19-937 |
Права доступа | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Ключ записи | ru\spstu\vkr\1986 |
Дата создания записи | 18.09.2019 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа | Анонимные пользователи |
---|---|
Сеть | Интернет |
В данной работе исследована возможность применимости многоагентного подхода к задачам глубокого обучения с подкреплением. Реализован алгоритм оптимизации политик Trust Region Policy Optimization. Изучены возможности по параллельного выполнения данного алгоритма и предложена новая архитектура его выполнения, основанная на множестве агентов, генерирующих обучающую выборку для оптимизатора. Предложенная архитектура реализована и протестирована на классических задачах обучения с подкреплением.
In this work, we researched the possibility of application of the multi-agent approach in the field of deep reinforcement learning. Trust Region Policy Optimization algorithm has been implemented. The ways of parallelizing this algorithm have been investigated. A new training workflow has been proposed. This workflow includes multiple agents, who are constantly generating the training batches for optimization in distributed environment. The proposed architecture has been implemented and tested for classic reinforcement learning tasks.
Место доступа | Группа пользователей | Действие |
---|---|---|
Локальная сеть ИБК СПбПУ | Все |
|
Интернет | Авторизованные пользователи СПбПУ |
|
Интернет | Анонимные пользователи |
|
Количество обращений: 42
За последние 30 дней: 0