Детальная информация

Название: Обучение с подкреплением нейронной сети, основанное на любопытстве с помощью самоконтролируемого прогноза в Action игре: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Авторы: Куксов Григорий Валерьевич
Научный руководитель: Леонтьева Татьяна Владимировна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2022
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: разработка игр; машинное обучение; обучение с подкреплением; внутренние награды; любопытство; game development; machine learning; reinforcements learning; intrinsic rewards; curiosity
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2022/vr/vr22-3149
Права доступа: Доступ по паролю из сети Интернет (чтение, печать)
Дополнительно: Новинка
Ключ записи: ru\spstu\vkr\19785

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Основная идея подхода заключается в том, что если есть внешние награды, то должны быть и внутренние. Вместо того чтобы предоставляться средой, внутренние вознаграждения генерируются самим агентом на основе некоторых критериев, которые в итоге служат какой-то цели, например изменение поведения агента таким образом, что он получит еще большие внешние награды в будущем, или что агент будет исследовать мир больше, чем мог бы в противном случае. Были разработаны прототипы противников, которых обучили в тестовой среде преследовать и атаковать главного героя с помощью инструментария среды разработки Unity для работы с машинным обучением - ML-Agents. Затем полученные модели агентов интегрировали в основную сцену проекта в виде нескольких экземпляров противников, расположенных в различных местах, которые в последствии четко выполняли задуманный функционал. Также было произведено сравнение процесса и результатов обучения с применением предлагаемого метода и без него - обучение, основанное на любопытстве, показало превосходство.

The main idea of the approach is that if there are external rewards, then there should be intrinsic ones. Instead of being provided by the environment, intrinsic rewards are generated by the agent itself based on certain criteria that ultimately serve some purpose, for example, changing the agent's behavior so that he will receive even greater external rewards in the future, or that the agent will explore the world more than he could otherwise. Prototypes of opponents were developed, who were trained in a test environment to chase and attack the main character using the Unity development environment toolkit for working with machine learning - ML-Agents. Then the resulting agent models were integrated into the main stage of the project in the form of several instances of opponents located in various places, which subsequently clearly fulfilled the intended functionality. There was also a comparison of the process and learning outcomes with and without the proposed method - learning based on curiosity showed superiority.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать
Внешние организации №2 Все Прочитать
Внешние организации №1 Все
Интернет Авторизованные пользователи СПбПУ Прочитать Печать
Интернет Авторизованные пользователи (не СПбПУ, №2) Прочитать
Интернет Авторизованные пользователи (не СПбПУ, №1)
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 0
За последние 30 дней: 0
Подробная статистика