Обучение с подкреплением нейронной сети, основанное на любопытстве с помощью самоконтролируемого прогноза в Action игре: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»

Куксов, Григорий Валерьевич

Details

	Table	Card	RUSMARC

Title:	Обучение с подкреплением нейронной сети, основанное на любопытстве с помощью самоконтролируемого прогноза в Action игре: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators:	Куксов Григорий Валерьевич
Scientific adviser:	Леонтьева Татьяна Владимировна
Organization:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint:	Санкт-Петербург, 2022
Collection:	Выпускные квалификационные работы; Общая коллекция
Subjects:	разработка игр; машинное обучение; обучение с подкреплением; внутренние награды; любопытство; game development; machine learning; reinforcements learning; intrinsic rewards; curiosity
Document type:	Bachelor graduation qualification work
File type:	PDF
Language:	Russian
Level of education:	Bachelor
Speciality code (FGOS):	09.03.04
Speciality group (FGOS):	090000 - Информатика и вычислительная техника
DOI:	10.18720/SPBPU/3/2022/vr/vr22-3149
Rights:	Доступ по паролю из сети Интернет (чтение, печать)
Record key:	ru\spstu\vkr\19785

Allowed Actions: –

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Основная идея подхода заключается в том, что если есть внешние награды, то должны быть и внутренние. Вместо того чтобы предоставляться средой, внутренние вознаграждения генерируются самим агентом на основе некоторых критериев, которые в итоге служат какой-то цели, например изменение поведения агента таким образом, что он получит еще большие внешние награды в будущем, или что агент будет исследовать мир больше, чем мог бы в противном случае. Были разработаны прототипы противников, которых обучили в тестовой среде преследовать и атаковать главного героя с помощью инструментария среды разработки Unity для работы с машинным обучением - ML-Agents. Затем полученные модели агентов интегрировали в основную сцену проекта в виде нескольких экземпляров противников, расположенных в различных местах, которые в последствии четко выполняли задуманный функционал. Также было произведено сравнение процесса и результатов обучения с применением предлагаемого метода и без него - обучение, основанное на любопытстве, показало превосходство.

The main idea of the approach is that if there are external rewards, then there should be intrinsic ones. Instead of being provided by the environment, intrinsic rewards are generated by the agent itself based on certain criteria that ultimately serve some purpose, for example, changing the agent's behavior so that he will receive even greater external rewards in the future, or that the agent will explore the world more than he could otherwise. Prototypes of opponents were developed, who were trained in a test environment to chase and attack the main character using the Unity development environment toolkit for working with machine learning - ML-Agents. Then the resulting agent models were integrated into the main stage of the project in the form of several instances of opponents located in various places, which subsequently clearly fulfilled the intended functionality. There was also a comparison of the process and learning outcomes with and without the proposed method - learning based on curiosity showed superiority.

Document access rights

	Network		User group		Action
	ILC SPbPU Local Network		All
	Internet		Authorized users SPbPU
	Internet		Anonymous

Usage statistics

Access count: 3
Last 30 days: 1
Detailed usage statistics