Разработка алгоритма навигации для квадрокоптера на основе обучения с подкреплением: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа)»

Арбаш, Элиас

Details

Title	Разработка алгоритма навигации для квадрокоптера на основе обучения с подкреплением: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа)»
Creators	Арбаш Элиас
Scientific adviser	Ростов Николай Васильевич
Other creators	Селиванова Елена Николаевна
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint	Санкт-Петербург, 2020
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	Летательные аппараты беспилотные ; Принятие решений ; Навигация ; обучение с подкреплением ; временные различия ; reinforcement learning ; temporal difference
UDC	629.7.05-52 ; 629.072
Document type	Master graduation qualification work
File type	PDF
Language	Russian
Level of education	Master
Speciality code (FGOS)	09.04.01
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
Links	Отзыв руководителя ; Рецензия ; Отчет о проверке на объем и корректность внешних заимствований
DOI	10.18720/SPBPU/3/2020/vr/vr20-5601
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key	ru\spstu\vkr\15471
Record create date	11/25/2021

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

В последние годы беспилотные летательные аппараты (БЛА) играют важную роль в выполнении задач, которые могут быть сложными, трудоёмкими и ресурсоёмкими для экспертов. Некоторые из этих задач выполняются в неизвестных условиях, полных препятствий, когда оператору необходимо управлять БЛА в соответствии с человеческим опытом принятия решений. Таким образом, автономная навигация в таких условиях является одной из сложных задач по управлению БЛА. Автономное отслеживание движущихся целей является одной из таких сложных задач, требующих от робота способности планировать и принимать решения, чтобы справиться с ситуациями, которые перехватывают квадрокоптер на пути к достижению желаемой цели. Используя oбучение с подкреплением, данная работа рассматривает автономное слежение за движущимися целями с помощью квадрокоптера как высокоуровневую задачу, разбивая её на более мелкие подзадачи, начиная с достижения автономной навигации без модели и заканчивая статической точкой. Результаты демонстрируют эффективность использования алгоритмов временной разницы обучения с подкреплением: Off-policy Q-обучения и On-policy SARSA, а также их свойства. Полученные результаты демонстрируют важнейшие эффекты проектирования функции поощрения и выбора гиперпараметров, а также предлагают решения для будущей работы, основанные на опыте обучения и анализе.

In recent years, unmanned aerial vehicles (UAVs) have played an important role in performing tasks that can be complex, time consuming and resource intensive for experts. Some of these tasks are performed in unknown conditions full of obstacles, when the operator needs to control the UAV in accordance with human decision-making experience. Thus, autonomous navigation in such conditions is one of the most difficult tasks for UAV control. Autonomous tracking of moving targets is one such challenging task, requiring the robot to be able to plan and make decisions in order to cope with situations that intercept the quadcopter on its way to achieving the desired target. Using reinforcement learning, this paper treats autonomous tracking of moving targets with a quadcopter as a high-level task, breaking it down into smaller sub-tasks ranging from achieving autonomous navigation without a model to a static point. The results demonstrate the effectiveness of using the algorithms for the time difference of reinforcement learning: Off-policy Q-learning and On-policy SARSA, as well as their properties. The findings demonstrate the critical design effects of the reward function and hyperparameter selection, and suggest solutions for future work based on learning and analysis experiences.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

BKP_ Элиас Арбаш (1)
ELIAS
- Introduction
- General description of the Quadrocopter navigation
  - Navigation
  - Quadrocopter
    - Sensors
      - Inertial Moment Unit
      - Camera
- Quadrocopter Mathematical Model
  - Kinematic Model of the Quadrocopter
  - Dynamic Model of the Quadcopter
    - Forces
    - Actuating Torques
- Reinforcement Learning
  - What is Reinforcement Learning?
  - The difference from Supervised and Unsupervised Learning
  - Why RL?
  - RL Components
  - Markov Decision Process
  - Value function - Action value function - Bellman equation
  - Model Free VS Model Based
  - The Explore Exploit Dilemma
- Reinforcement Learning Algorithm Review
  - Temporal Difference Learning (TD)
    - SARSA
    - Q-Learning
  - Deep Learning
  - camera frames with convolutional neural network
  - Deep Q-Learning
- Implementation of RL algorithm in Quadrocopter
  - Robot Operating System (ROS)
    - ROS Advantages
    - ROS Disadvantages
  - Gazebo Simulator
  - OpenAI Gym and OpenAI ROS
  - Quadrocopter Navigation Algorithm Main Requirements
- RL Algorithms Training and Results Analysis
  - First Algorithm Implementation - SARSA
    - First Training
    - Second Training
  - Second Algorithm Implementation - QLearning
    - First Training
    - Second Training
  - Results Analysis
- CONCLUSION
  - Outlook
- REFERENCE LIST

Access count: 5
Last 30 days: 0

Detailed usage statistics