Details

Title Decision-Making Technology for Autonomous Vehicles: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа) / Intelligent Systems (International Educational Program)» = Технология принятия решений для автономных транспортных средств
Creators Чжан Бэйчэнь
Scientific adviser Кожубаев Юрий Нургалиевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects autonomous driving technology ; decision-making systems ; ammd-rl ; multi-agent environments ; технология автономного вождения ; системы принятия решений ; rl ; мультиагентные среды
Document type Master graduation qualification work
Language Russian
Level of education Master
Speciality code (FGOS) 09.04.01
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr26-349
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key ru\spstu\vkr\39869
Record create date 2/24/2026

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

With the rapid advancement of autonomous driving technology, improving decision-making systems to enhance safety and efficiency remains a critical challenge. Traditional rule-based methods often struggle with dynamic and unpredictable traffic environments, while existing reinforcement learning (RL) approaches face limitations in scalability, safety constraints, and sparse reward settings. This study proposes the Adaptive Multi-Module Deep Reinforcement Learning (AMMD-RL) algorithm, which integrates multi-module input, dynamic parameter space noise, priority experience replay, and multi-agent collaboration to address these challenges. Leveraging the Highway-env simulation platform, the algorithm is evaluated across diverse scenarios, including highways, intersections, roundabouts, and merging, and compared against state-of-the-art methods such as DQN, DDPG, PPO, and A2C. Experimental results demonstrate that AMMD-RL achieves superior performance, with higher average rewards, fewer collisions, and enhanced stability in training loss and episode length. The algorithm’s ability to balance exploration and exploitation, coupled with efficient experience utilization, enables robust decision-making in complex, multi-agent environments. These findings underscore the potential of AMMD-RL to advance autonomous driving systems, offering a framework that improves safety, adaptability, and real-time responsiveness.

С быстрым развитием технологий автономного вождения совершенствование систем принятия решений для повышения безопасности и эффективности остается важнейшей задачей. Традиционные методы, основанные на правилах, часто не справляются с динамичной и непредсказуемой дорожной средой, а существующие подходы к обучению с подкреплением (RL) сталкиваются с ограничениями масштабируемости, ограничениями безопасности и разреженными параметрами вознаграждения. В данном исследовании предлагается адаптивный многомодульный алгоритм глубокого обучения с подкреплением (AMMD-RL), который объединяет в себе многомодульный вход, динамический шум в пространстве параметров, воспроизведение приоритетного опыта и взаимодействие нескольких агентов для решения этих проблем. Используя платформу моделирования Highway-env, алгоритм оценивается в различных сценариях, включая автомагистрали, перекрестки, круговые перекрестки и слияние, и сравнивается с современными методами, такими как DQN, DDPG, PPO и A2C. Результаты экспериментов показывают, что AMMD-RL достигает превосходной производительности, с более высоким средним вознаграждением, меньшим количеством столкновений и повышенной устойчивостью к потерям при обучении и длине эпизода. Способность алгоритма балансировать между исследованием и эксплуатацией, в сочетании с эффективным использованием опыта, позволяет принимать надежные решения в сложных многоагентных средах. Эти результаты подчеркивают потенциал AMMD-RL для развития систем автономного вождения, предлагая структуру, которая повышает безопасность, адаптивность и быстроту реагирования в реальном времени.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 0 
Last 30 days: 0

Detailed usage statistics