Сравнительный анализ методов обучения игровых NPC с использованием фреймворка Unity ML-Agents: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Comparative analysis of game NPC training methods using the Unity ML-Agents framework

Наумичев, Валентин Александрович

Details

Title	Сравнительный анализ методов обучения игровых NPC с использованием фреймворка Unity ML-Agents: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Comparative analysis of game NPC training methods using the Unity ML-Agents framework
Creators	Наумичев Валентин Александрович
Scientific adviser	Селиверстов Ярослав Александрович
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2026
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	обучение с подкреплением ; обучение npc ; unity ; фреймворк unity ml-agents ; алгоритм proximal policy optimization (ppo) ; алгоритм soft actor-critic (sac) ; алгоритм multi-agent posthumous credit assignment (ma-poca) ; tensorboard ; reinforcement learning ; npc training ; unity ml-agents framework ; proximal policy optimization (ppo) algorithm ; soft actor-critic (sac) algorithm ; multi-agent posthumous credit assignment (ma-poca) algorithm
Document type	Bachelor graduation qualification work
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	09.03.02
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2026/vr/vr26-557
Rights	Доступ по паролю из сети Интернет (чтение, печать)
Additionally	New arrival
Record key	ru\spstu\vkr\40352
Record create date	4/20/2026

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Данная работа посвящена исследованию методов обучения неигровых персонажей с использованием фреймворка Unity ML-Agents, сравнению алгоритмов Proximal Policy Optimization (PPO), Soft Actor-Critic (SAC) и Multi-Agent Posthumous Credit Assignment (MA-POCA) и определению лучших сценариев для их применения. Задачи, которые решались в ходе исследования: 1) Изучение распространённых способов создания игрового искусственного интеллекта, таких как скрипты, конечные автоматы и деревья поведения, и исследование причин, по которым машинное обучение становится всё более популярным для создания неигровых персонажей. 2) Изучение теоретических и математических основ ключевых алгоритмов глубокого обучения с подкреплением. 3) Сравнительный анализ эффективности алгоритмов PPO и SAC проводимый, с помощью контролируемых экспериментов в стандартизированных тестовых средах. 4) Разработка рекомендаций для разработчиков по выбору и настройке алгоритмов в зависимости от особенностей конкретной игровой задачи. Работа проведена с использованием программного комплекса Unity для создания виртуальных сред, реализации агентов и управления процессом обучения, а также фреймворка ML-Agents Toolkit. Для глубокого обучения с подкреплением применялся Python со связкой ключевых библиотек: PyTorch (как основа для нейронных сетей в ML-Agents), TensorBoard для визуализации и мониторинга процесса обучения. Исследование включало в себя как теоретический анализ, так и практические эксперименты. На основе сравнения кривых обучения, производительности агентов и стабильности алгоритмов были разработаны практические рекомендации по выбору и использованию алгоритмов глубокого обучения с подкреплением в Unity. Для достижения данных результатов в работе были использованы следующие информационные технологии и программное обеспечение: - Интегрированная среда разработки Visual Studio и игровой движок Unity; - Фреймворк машинного обучения Unity ML-Agents Toolkit; - Менеджер пакетов и сред Anaconda; - Библиотеки машинного обучения на Python: PyTorch, NumPy; - Система визуализации и мониторинга TensorBoard.

This paper is devoted to the study of non-player character training methods using the Unity ML-Agents framework, comparing the algorithms of Proximal Policy Optimization (PPO), Soft Actor-Critic (SAC) and Multi-Agent Posthumous Credit Assignment (MA-POCA) and determining the best scenarios for their application. Tasks that were solved during the research: 1) The study of common ways to create game artificial intelligence, such as scripts, finite automata, and behavior trees, and the study of the reasons why machine learning is becoming increasingly popular for creating non-player characters. 2) Studying the theoretical and mathematical foundations of key reinforcement learning algorithms. 3) Comparative analysis of the effectiveness of the PPO and SAC algorithms conducted using controlled experiments in standardized test environments. 4) Development of recommendations for developers on choosing and configuring algorithms depending on the specifics of a particular game task. The work was carried out using the Unity software package for creating virtual environments, implementing agents and managing the learning process, as well as the ML-Agents Toolkit framework. For deep reinforcement learning, Python was used with a bunch of key libraries: PyTorch (as the basis for neural networks in ML-Agents), TensorBoard for visualizing and monitoring the learning process. The research included both theoretical analysis and practical experiments. Based on a comparison of learning curves, agent performance, and algorithm stability, practical recommendations have been developed for choosing and using reinforcement learning algorithms in Unity. To achieve these results, the following information technologies and software were used in the work: - Visual Studio integrated Development environment and Unity game engine; - Unity ML-Agents Toolkit Machine Learning Framework; - Anaconda Package and Environment Manager; - Python machine learning libraries: PyTorch, NumPy; - TensorBoard visualization and monitoring system.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 0
Last 30 days: 0
Detailed usage statistics