Details
| Title | Decision-Making Technology for Autonomous Vehicles: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа) / Intelligent Systems (International Educational Program)» = Технология принятия решений для автономных транспортных средств |
|---|---|
| Creators | Чжан Бэйчэнь |
| Scientific adviser | Кожубаев Юрий Нургалиевич |
| Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
| Imprint | Санкт-Петербург, 2025 |
| Collection | Выпускные квалификационные работы ; Общая коллекция |
| Subjects | autonomous driving technology ; decision-making systems ; ammd-rl ; multi-agent environments ; технология автономного вождения ; системы принятия решений ; rl ; мультиагентные среды |
| Document type | Master graduation qualification work |
| Language | Russian |
| Level of education | Master |
| Speciality code (FGOS) | 09.04.01 |
| Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
| DOI | 10.18720/SPBPU/3/2025/vr/vr26-349 |
| Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
| Additionally | New arrival |
| Record key | ru\spstu\vkr\39869 |
| Record create date | 2/24/2026 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
| Group | Anonymous |
|---|---|
| Network | Internet |
With the rapid advancement of autonomous driving technology, improving decision-making systems to enhance safety and efficiency remains a critical challenge. Traditional rule-based methods often struggle with dynamic and unpredictable traffic environments, while existing reinforcement learning (RL) approaches face limitations in scalability, safety constraints, and sparse reward settings. This study proposes the Adaptive Multi-Module Deep Reinforcement Learning (AMMD-RL) algorithm, which integrates multi-module input, dynamic parameter space noise, priority experience replay, and multi-agent collaboration to address these challenges. Leveraging the Highway-env simulation platform, the algorithm is evaluated across diverse scenarios, including highways, intersections, roundabouts, and merging, and compared against state-of-the-art methods such as DQN, DDPG, PPO, and A2C. Experimental results demonstrate that AMMD-RL achieves superior performance, with higher average rewards, fewer collisions, and enhanced stability in training loss and episode length. The algorithm’s ability to balance exploration and exploitation, coupled with efficient experience utilization, enables robust decision-making in complex, multi-agent environments. These findings underscore the potential of AMMD-RL to advance autonomous driving systems, offering a framework that improves safety, adaptability, and real-time responsiveness.
С быстрым развитием технологий автономного вождения совершенствование систем принятия решений для повышения безопасности и эффективности остается важнейшей задачей. Традиционные методы, основанные на правилах, часто не справляются с динамичной и непредсказуемой дорожной средой, а существующие подходы к обучению с подкреплением (RL) сталкиваются с ограничениями масштабируемости, ограничениями безопасности и разреженными параметрами вознаграждения. В данном исследовании предлагается адаптивный многомодульный алгоритм глубокого обучения с подкреплением (AMMD-RL), который объединяет в себе многомодульный вход, динамический шум в пространстве параметров, воспроизведение приоритетного опыта и взаимодействие нескольких агентов для решения этих проблем. Используя платформу моделирования Highway-env, алгоритм оценивается в различных сценариях, включая автомагистрали, перекрестки, круговые перекрестки и слияние, и сравнивается с современными методами, такими как DQN, DDPG, PPO и A2C. Результаты экспериментов показывают, что AMMD-RL достигает превосходной производительности, с более высоким средним вознаграждением, меньшим количеством столкновений и повышенной устойчивостью к потерям при обучении и длине эпизода. Способность алгоритма балансировать между исследованием и эксплуатацией, в сочетании с эффективным использованием опыта, позволяет принимать надежные решения в сложных многоагентных средах. Эти результаты подчеркивают потенциал AMMD-RL для развития систем автономного вождения, предлагая структуру, которая повышает безопасность, адаптивность и быстроту реагирования в реальном времени.
| Network | User group | Action |
|---|---|---|
| ILC SPbPU Local Network | All |
|
| Internet | Authorized users SPbPU |
|
| Internet | Anonymous |
|
Access count: 0
Last 30 days: 0