Details
| Title | Управление мобильным роботом на базе алгоритма TD3 с оценкой вероятностного представления состояния для частично наблюдаемой окружающей среды // Промышленный искусственный интеллект (ПИИ'2025): Всероссийская научно-практическая конференция с международным участием 3–4 июля 2025 года: cборник научных трудов |
|---|---|
| Creators | Бархум Мажд ; Живицкий Андрей Юрьевич ; Борисов Олег Игоревич ; Пыркин Антон Александрович |
| Organization | Национальный исследовательский университет ИТМО |
| Imprint | Санкт-Петербург: ПОЛИТЕХ-ПРЕСС, 2025 |
| Collection | Общая коллекция |
| Document type | Article, report |
| Language | Russian |
| DOI | 10.18720/SPBPU/2/id25-533 |
| Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
| Additionally | New arrival |
| Record key | RU\SPSTU\edoc\77863 |
| Record create date | 12/23/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
| Group | Anonymous |
|---|---|
| Network | Internet |
Работа посвящена проблеме навигации мобильных роботов в частично наблюдаемых средах, где неопределенность состояния существенно влияет на производительность. Мы предлагаем новый подход, сочетающий алгоритм обучения с подкреплением Twin Delayed Deep Deterministic Policy Gradient (TD3) с оценкой вероятностного представления состояния. Эта интегрированная структура обеспечивает автономную навигацию в сложных средах за счет учета неопределенности состояния. Результаты моделирования демонстрируют повышенную эффективность по сравнению с исходным алгоритмом TD3.
This work addresses the challenge of mobile robot navigation in partially observable environments, where state uncertainty significantly impacts performance. We propose a novel approach combining Twin Delayed Deep Deterministic Policy Gradient (TD3) reinforcement learning algorithm with explicit belief state estimation. This integrated framework enables autonomous navigation in complex environments by explicitly accounting for state uncertainty. Simulation results demonstrate improvements compared to the original Twin Delayed Deep Deterministic Policy Gradient (TD3) algorithm.
| Network | User group | Action |
|---|---|---|
| ILC SPbPU Local Network | All |
|
| Internet | Authorized users SPbPU |
|
| Internet | Anonymous |
|
Access count: 0
Last 30 days: 0