Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
В последние годы беспилотные летательные аппараты (БЛА) играют важную роль в выполнении задач, которые могут быть сложными, трудоёмкими и ресурсоёмкими для экспертов. Некоторые из этих задач выполняются в неизвестных условиях, полных препятствий, когда оператору необходимо управлять БЛА в соответствии с человеческим опытом принятия решений. Таким образом, автономная навигация в таких условиях является одной из сложных задач по управлению БЛА. Автономное отслеживание движущихся целей является одной из таких сложных задач, требующих от робота способности планировать и принимать решения, чтобы справиться с ситуациями, которые перехватывают квадрокоптер на пути к достижению желаемой цели. Используя oбучение с подкреплением, данная работа рассматривает автономное слежение за движущимися целями с помощью квадрокоптера как высокоуровневую задачу, разбивая её на более мелкие подзадачи, начиная с достижения автономной навигации без модели и заканчивая статической точкой. Результаты демонстрируют эффективность использования алгоритмов временной разницы обучения с подкреплением: Off-policy Q-обучения и On-policy SARSA, а также их свойства. Полученные результаты демонстрируют важнейшие эффекты проектирования функции поощрения и выбора гиперпараметров, а также предлагают решения для будущей работы, основанные на опыте обучения и анализе.
In recent years, unmanned aerial vehicles (UAVs) have played an important role in performing tasks that can be complex, time consuming and resource intensive for experts. Some of these tasks are performed in unknown conditions full of obstacles, when the operator needs to control the UAV in accordance with human decision-making experience. Thus, autonomous navigation in such conditions is one of the most difficult tasks for UAV control. Autonomous tracking of moving targets is one such challenging task, requiring the robot to be able to plan and make decisions in order to cope with situations that intercept the quadcopter on its way to achieving the desired target. Using reinforcement learning, this paper treats autonomous tracking of moving targets with a quadcopter as a high-level task, breaking it down into smaller sub-tasks ranging from achieving autonomous navigation without a model to a static point. The results demonstrate the effectiveness of using the algorithms for the time difference of reinforcement learning: Off-policy Q-learning and On-policy SARSA, as well as their properties. The findings demonstrate the critical design effects of the reward function and hyperparameter selection, and suggest solutions for future work based on learning and analysis experiences.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All |
![]() ![]() ![]() |
||||
External organizations N2 | All |
![]() |
||||
External organizations N1 | All | |||||
Internet | Authorized users SPbPU |
![]() ![]() ![]() |
||||
Internet | Authorized users (not from SPbPU, N2) |
![]() |
||||
Internet | Authorized users (not from SPbPU, N1) | |||||
![]() |
Internet | Anonymous |
Table of Contents
- BKP_ Элиас Арбаш (1)
- ELIAS
- Introduction
- General description of the Quadrocopter navigation
- Navigation
- Quadrocopter
- Sensors
- Inertial Moment Unit
- Camera
- Sensors
- Quadrocopter Mathematical Model
- Kinematic Model of the Quadrocopter
- Dynamic Model of the Quadcopter
- Forces
- Actuating Torques
- Reinforcement Learning
- What is Reinforcement Learning?
- The difference from Supervised and Unsupervised Learning
- Why RL?
- RL Components
- Markov Decision Process
- Value function - Action value function - Bellman equation
- Model Free VS Model Based
- The Explore Exploit Dilemma
- Reinforcement Learning Algorithm Review
- Temporal Difference Learning (TD)
- SARSA
- Q-Learning
- Deep Learning
- camera frames with convolutional neural network
- Deep Q-Learning
- Temporal Difference Learning (TD)
- Implementation of RL algorithm in Quadrocopter
- Robot Operating System (ROS)
- ROS Advantages
- ROS Disadvantages
- Gazebo Simulator
- OpenAI Gym and OpenAI ROS
- Quadrocopter Navigation Algorithm Main Requirements
- Robot Operating System (ROS)
- RL Algorithms Training and Results Analysis
- First Algorithm Implementation - SARSA
- First Training
- Second Training
- Second Algorithm Implementation - QLearning
- First Training
- Second Training
- Results Analysis
- First Algorithm Implementation - SARSA
- CONCLUSION
- Outlook
- REFERENCE LIST
Usage statistics
|
Access count: 4
Last 30 days: 3 Detailed usage statistics |