Details

Title Управление мобильным роботом на базе алгоритма TD3 с оценкой вероятностного представления состояния для частично наблюдаемой окружающей среды // Промышленный искусственный интеллект (ПИИ'2025): Всероссийская научно-практическая конференция с международным участием 3–4 июля 2025 года: cборник научных трудов
Creators Бархум Мажд ; Живицкий Андрей Юрьевич ; Борисов Олег Игоревич ; Пыркин Антон Александрович
Organization Национальный исследовательский университет ИТМО
Imprint Санкт-Петербург: ПОЛИТЕХ-ПРЕСС, 2025
Collection Общая коллекция
Document type Article, report
Language Russian
DOI 10.18720/SPBPU/2/id25-533
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key RU\SPSTU\edoc\77863
Record create date 12/23/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

Работа посвящена проблеме навигации мобильных роботов в частично наблюдаемых средах, где неопределенность состояния существенно влияет на производительность. Мы предлагаем новый подход, сочетающий алгоритм обучения с подкреплением Twin Delayed Deep Deterministic Policy Gradient (TD3) с оценкой вероятностного представления состояния. Эта интегрированная структура обеспечивает автономную навигацию в сложных средах за счет учета неопределенности состояния. Результаты моделирования демонстрируют повышенную эффективность по сравнению с исходным алгоритмом TD3.

This work addresses the challenge of mobile robot navigation in partially observable environments, where state uncertainty significantly impacts performance. We propose a novel approach combining Twin Delayed Deep Deterministic Policy Gradient (TD3) reinforcement learning algorithm with explicit belief state estimation. This integrated framework enables autonomous navigation in complex environments by explicitly accounting for state uncertainty. Simulation results demonstrate improvements compared to the original Twin Delayed Deep Deterministic Policy Gradient (TD3) algorithm.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 0 
Last 30 days: 0

Detailed usage statistics