Decision-Making Technology for Autonomous Vehicles: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа) / Intelligent Systems (International Educational Program)» = Технология принятия решений для автономных транспортных средств

Чжан Бэйчэнь

Details

Title	Decision-Making Technology for Autonomous Vehicles: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа) / Intelligent Systems (International Educational Program)» = Технология принятия решений для автономных транспортных средств
Creators	Чжан Бэйчэнь
Scientific adviser	Кожубаев Юрий Нургалиевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2025
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	autonomous driving technology ; decision-making systems ; ammd-rl ; multi-agent environments ; технология автономного вождения ; системы принятия решений ; rl ; мультиагентные среды
Document type	Master graduation qualification work
Language	Russian
Level of education	Master
Speciality code (FGOS)	09.04.01
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2025/vr/vr26-349
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	ru\spstu\vkr\39869
Record create date	2/24/2026

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

With the rapid advancement of autonomous driving technology, improving decision-making systems to enhance safety and efficiency remains a critical challenge. Traditional rule-based methods often struggle with dynamic and unpredictable traffic environments, while existing reinforcement learning (RL) approaches face limitations in scalability, safety constraints, and sparse reward settings. This study proposes the Adaptive Multi-Module Deep Reinforcement Learning (AMMD-RL) algorithm, which integrates multi-module input, dynamic parameter space noise, priority experience replay, and multi-agent collaboration to address these challenges. Leveraging the Highway-env simulation platform, the algorithm is evaluated across diverse scenarios, including highways, intersections, roundabouts, and merging, and compared against state-of-the-art methods such as DQN, DDPG, PPO, and A2C. Experimental results demonstrate that AMMD-RL achieves superior performance, with higher average rewards, fewer collisions, and enhanced stability in training loss and episode length. The algorithm’s ability to balance exploration and exploitation, coupled with efficient experience utilization, enables robust decision-making in complex, multi-agent environments. These findings underscore the potential of AMMD-RL to advance autonomous driving systems, offering a framework that improves safety, adaptability, and real-time responsiveness.

С быстрым развитием технологий автономного вождения совершенствование систем принятия решений для повышения безопасности и эффективности остается важнейшей задачей. Традиционные методы, основанные на правилах, часто не справляются с динамичной и непредсказуемой дорожной средой, а существующие подходы к обучению с подкреплением (RL) сталкиваются с ограничениями масштабируемости, ограничениями безопасности и разреженными параметрами вознаграждения. В данном исследовании предлагается адаптивный многомодульный алгоритм глубокого обучения с подкреплением (AMMD-RL), который объединяет в себе многомодульный вход, динамический шум в пространстве параметров, воспроизведение приоритетного опыта и взаимодействие нескольких агентов для решения этих проблем. Используя платформу моделирования Highway-env, алгоритм оценивается в различных сценариях, включая автомагистрали, перекрестки, круговые перекрестки и слияние, и сравнивается с современными методами, такими как DQN, DDPG, PPO и A2C. Результаты экспериментов показывают, что AMMD-RL достигает превосходной производительности, с более высоким средним вознаграждением, меньшим количеством столкновений и повышенной устойчивостью к потерям при обучении и длине эпизода. Способность алгоритма балансировать между исследованием и эксплуатацией, в сочетании с эффективным использованием опыта, позволяет принимать надежные решения в сложных многоагентных средах. Эти результаты подчеркивают потенциал AMMD-RL для развития систем автономного вождения, предлагая структуру, которая повышает безопасность, адаптивность и быстроту реагирования в реальном времени.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 0
Last 30 days: 0

Detailed usage statistics