Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Основная идея подхода заключается в том, что если есть внешние награды, то должны быть и внутренние. Вместо того чтобы предоставляться средой, внутренние вознаграждения генерируются самим агентом на основе некоторых критериев, которые в итоге служат какой-то цели, например изменение поведения агента таким образом, что он получит еще большие внешние награды в будущем, или что агент будет исследовать мир больше, чем мог бы в противном случае. Были разработаны прототипы противников, которых обучили в тестовой среде преследовать и атаковать главного героя с помощью инструментария среды разработки Unity для работы с машинным обучением - ML-Agents. Затем полученные модели агентов интегрировали в основную сцену проекта в виде нескольких экземпляров противников, расположенных в различных местах, которые в последствии четко выполняли задуманный функционал. Также было произведено сравнение процесса и результатов обучения с применением предлагаемого метода и без него - обучение, основанное на любопытстве, показало превосходство.
The main idea of the approach is that if there are external rewards, then there should be intrinsic ones. Instead of being provided by the environment, intrinsic rewards are generated by the agent itself based on certain criteria that ultimately serve some purpose, for example, changing the agent's behavior so that he will receive even greater external rewards in the future, or that the agent will explore the world more than he could otherwise. Prototypes of opponents were developed, who were trained in a test environment to chase and attack the main character using the Unity development environment toolkit for working with machine learning - ML-Agents. Then the resulting agent models were integrated into the main stage of the project in the form of several instances of opponents located in various places, which subsequently clearly fulfilled the intended functionality. There was also a comparison of the process and learning outcomes with and without the proposed method - learning based on curiosity showed superiority.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Usage statistics
Access count: 3
Last 30 days: 1 Detailed usage statistics |