Developing an adaptive Intelligence agent for game theory based on reinforcement learning: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа) / Intelligent Systems (International Educational Program)»

Санчес Гомес, Йеисон Андрес

Details

	Table	Card	RUSMARC

Title:	Developing an adaptive Intelligence agent for game theory based on reinforcement learning: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа) / Intelligent Systems (International Educational Program)»
Creators:	Санчес Гомес Йеисон Андрес
Scientific adviser:	Шкодырев Вячеслав Петрович
Organization:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint:	Санкт-Петербург, 2023
Collection:	Выпускные квалификационные работы; Общая коллекция
Subjects:	обучение с подкреплением; адаптивный агент ИИ; Монте-Карло; сарса; сарса(λ); q-обучение; подкрепление; актер-критик; reinforcement learning; adaptive ai agent; monte carlo; sarsa; sarsa(λ); q-learning; reinforce; actor-critic
Document type:	Master graduation qualification work
File type:	PDF
Language:	Russian
Level of education:	Master
Speciality code (FGOS):	09.04.01
Speciality group (FGOS):	090000 - Информатика и вычислительная техника
DOI:	10.18720/SPBPU/3/2023/vr/vr24-590
Rights:	Доступ по паролю из сети Интернет (чтение, печать)
Additionally:	New arrival
Record key:	ru\spstu\vkr\27464

Allowed Actions: –

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В этом исследовании изучается использование алгоритмов обучения с подкреплением для создания адаптивного агента искусственного интеллекта в видеоиграх, таких как игры-лабиринты. В исследовании сравниваются и анализируются шесть контроллеров: Монте-Карло, SARSA, SARSA(λ), Q-learning, REINFORCE и Actor-Critic. Исследование включает в себя обучение агента ИИ каждому контроллеру и оценку его производительности. Результаты показывают, что контроллеры имеют разную эффективность в игровой среде. Контроллер Монте-Карло превосходен в разведке, но может медленно сходиться. SARSA и SARSA(λ) обеспечивают баланс между разведкой и эксплуатацией, при этом SARSA(λ) предлагает трассы, пригодные для долгосрочного обучения. Qlearning достигает хороших результатов, изучая оптимальную политику посредством оценки ценности действия. REINFORCE использует градиенты политики и показывает многообещающие результаты в оптимизации политики. Актер-критик сочетает в себе методы, основанные на ценностях и политике, что приводит к эффективному обучению. Эти результаты имеют значение для разработки игр, проектирования агентов искусственного интеллекта и алгоритмов обучения с подкреплением. Адаптивный агент искусственного интеллекта, созданный с помощью этих контроллеров, может улучшить игровой процесс и усовершенствовать интеллектуальные игровые агенты. В заключение, это исследование подчеркивает сильные и слабые стороны различных контроллеров обучения с подкреплением в игре-лабиринте. Исследование дает представление о выборе подходящих алгоритмов на основе их характеристик и производительности, способствуя лучшему пониманию обучения с подкреплением и его применения при разработке адаптивных агентов ИИ.

This research investigates the use of reinforcement learning algorithms to create an adaptive AI agent in video games such as maze games. The study compares and analyzes six controllers: Monte Carlo, SARSA, SARSA(λ), Q-learning, REINFORCE, and Actor-Critic. The research involves training the AI agent with each controller and evaluating their performance. The results demonstrate that the controllers have varying effectiveness in a game environment. The Monte Carlo controller excels in exploration but may converge slowly. SARSA and SARSA(λ) strike a balance between exploration and exploitation, with SARSA(λ) offering eligibility traces for long-term learning. Qlearning achieves good results by learning an optimal policy through action-value estimation. REINFORCE utilizes policy gradients and shows promising performance in policy optimization. Actor-Critic combines value-based and policybased methods, leading to efficient learning. These findings have implications in game development, AI agent design, and reinforcement learning algorithms. The adaptive AI agent created with these controllers can improve gameplay experiences and advance intelligent gaming agents. In conclusion, this research highlights the strengths and weaknesses of different reinforcement learning controllers in a maze game. The research provides insights for selecting appropriate algorithms based on their characteristics and performance, contributing to a better understanding of reinforcement learning and its application in developing adaptive AI agents.

Document access rights

	Network		User group		Action
	ILC SPbPU Local Network		All
	Internet		Authorized users SPbPU
	Internet		Anonymous

Usage statistics

Access count: 4
Last 30 days: 0
Detailed usage statistics