Обучение с подкреплением нейронной сети, основанное на любопытстве с помощью самоконтролируемого прогноза в Action игре: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта» = Neural network reinforcement learning, based on curiosity using self-supervised prediction in an action game

Куксов, Григорий Валерьевич

Детальная информация

Название	Обучение с подкреплением нейронной сети, основанное на любопытстве с помощью самоконтролируемого прогноза в Action игре: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта» = Neural network reinforcement learning, based on curiosity using self-supervised prediction in an action game
Авторы	Куксов Григорий Валерьевич
Научный руководитель	Леонтьева Татьяна Владимировна
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения	Санкт-Петербург, 2022
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	разработка игр ; машинное обучение ; обучение с подкреплением ; внутренние награды ; любопытство ; game development ; machine learning ; reinforcements learning ; intrinsic rewards ; curiosity
Тип документа	Выпускная квалификационная работа бакалавра
Язык	Русский
Уровень высшего образования	Бакалавриат
Код специальности ФГОС	09.03.04
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2022/vr/vr22-3149
Права доступа	Доступ по паролю из сети Интернет (чтение, печать)
Ключ записи	ru\spstu\vkr\19785
Дата создания записи	18.01.2023

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Основная идея подхода заключается в том, что если есть внешние награды, то должны быть и внутренние. Вместо того чтобы предоставляться средой, внутренние вознаграждения генерируются самим агентом на основе некоторых критериев, которые в итоге служат какой-то цели, например изменение поведения агента таким образом, что он получит еще большие внешние награды в будущем, или что агент будет исследовать мир больше, чем мог бы в противном случае. Были разработаны прототипы противников, которых обучили в тестовой среде преследовать и атаковать главного героя с помощью инструментария среды разработки Unity для работы с машинным обучением - ML-Agents. Затем полученные модели агентов интегрировали в основную сцену проекта в виде нескольких экземпляров противников, расположенных в различных местах, которые в последствии четко выполняли задуманный функционал. Также было произведено сравнение процесса и результатов обучения с применением предлагаемого метода и без него - обучение, основанное на любопытстве, показало превосходство.

The main idea of the approach is that if there are external rewards, then there should be intrinsic ones. Instead of being provided by the environment, intrinsic rewards are generated by the agent itself based on certain criteria that ultimately serve some purpose, for example, changing the agent's behavior so that he will receive even greater external rewards in the future, or that the agent will explore the world more than he could otherwise. Prototypes of opponents were developed, who were trained in a test environment to chase and attack the main character using the Unity development environment toolkit for working with machine learning - ML-Agents. Then the resulting agent models were integrated into the main stage of the project in the form of several instances of opponents located in various places, which subsequently clearly fulfilled the intended functionality. There was also a comparison of the process and learning outcomes with and without the proposed method - learning based on curiosity showed superiority.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Количество обращений: 6
За последние 30 дней: 0

Подробная статистика