Details

Title: Разработка алгоритма навигации для квадрокоптера на основе обучения с подкреплением: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа)»
Creators: Арбаш Элиас
Scientific adviser: Ростов Николай Васильевич
Other creators: Селиванова Елена Николаевна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: Летательные аппараты беспилотные; Принятие решений; Навигация; обучение с подкреплением; временные различия; reinforcement learning; temporal difference
UDC: 629.7.05-52; 629.072
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 09.04.01
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-5601
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\15471

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В последние годы беспилотные летательные аппараты (БЛА) играют важную роль в выполнении задач, которые могут быть сложными, трудоёмкими и ресурсоёмкими для экспертов. Некоторые из этих задач выполняются в неизвестных условиях, полных препятствий, когда оператору необходимо управлять БЛА в соответствии с человеческим опытом принятия решений. Таким образом, автономная навигация в таких условиях является одной из сложных задач по управлению БЛА. Автономное отслеживание движущихся целей является одной из таких сложных задач, требующих от робота способности планировать и принимать решения, чтобы справиться с ситуациями, которые перехватывают квадрокоптер на пути к достижению желаемой цели. Используя oбучение с подкреплением, данная работа рассматривает автономное слежение за движущимися целями с помощью квадрокоптера как высокоуровневую задачу, разбивая её на более мелкие подзадачи, начиная с достижения автономной навигации без модели и заканчивая статической точкой. Результаты демонстрируют эффективность использования алгоритмов временной разницы обучения с подкреплением: Off-policy Q-обучения и On-policy SARSA, а также их свойства. Полученные результаты демонстрируют важнейшие эффекты проектирования функции поощрения и выбора гиперпараметров, а также предлагают решения для будущей работы, основанные на опыте обучения и анализе.

In recent years, unmanned aerial vehicles (UAVs) have played an important role in performing tasks that can be complex, time consuming and resource intensive for experts. Some of these tasks are performed in unknown conditions full of obstacles, when the operator needs to control the UAV in accordance with human decision-making experience. Thus, autonomous navigation in such conditions is one of the most difficult tasks for UAV control. Autonomous tracking of moving targets is one such challenging task, requiring the robot to be able to plan and make decisions in order to cope with situations that intercept the quadcopter on its way to achieving the desired target. Using reinforcement learning, this paper treats autonomous tracking of moving targets with a quadcopter as a high-level task, breaking it down into smaller sub-tasks ranging from achieving autonomous navigation without a model to a static point. The results demonstrate the effectiveness of using the algorithms for the time difference of reinforcement learning: Off-policy Q-learning and On-policy SARSA, as well as their properties. The findings demonstrate the critical design effects of the reward function and hyperparameter selection, and suggest solutions for future work based on learning and analysis experiences.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Table of Contents

  • BKP_ Элиас Арбаш (1)
  • ELIAS
    • Introduction
    • General description of the Quadrocopter navigation
      • Navigation
      • Quadrocopter
        • Sensors
          • Inertial Moment Unit
          • Camera
    • Quadrocopter Mathematical Model
      • Kinematic Model of the Quadrocopter
      • Dynamic Model of the Quadcopter
        • Forces
        • Actuating Torques
    • Reinforcement Learning
      • What is Reinforcement Learning?
      • The difference from Supervised and Unsupervised Learning
      • Why RL?
      • RL Components
      • Markov Decision Process
      • Value function - Action value function - Bellman equation
      • Model Free VS Model Based
      • The Explore Exploit Dilemma
    • Reinforcement Learning Algorithm Review
      • Temporal Difference Learning (TD)
        • SARSA
        • Q-Learning
      • Deep Learning
      • camera frames with convolutional neural network
      • Deep Q-Learning
    • Implementation of RL algorithm in Quadrocopter
      • Robot Operating System (ROS)
        • ROS Advantages
        • ROS Disadvantages
      • Gazebo Simulator
      • OpenAI Gym and OpenAI ROS
      • Quadrocopter Navigation Algorithm Main Requirements
    • RL Algorithms Training and Results Analysis
      • First Algorithm Implementation - SARSA
        • First Training
        • Second Training
      • Second Algorithm Implementation - QLearning
        • First Training
        • Second Training
      • Results Analysis
    • CONCLUSION
      • Outlook
    • REFERENCE LIST

Usage statistics

stat Access count: 5
Last 30 days: 0
Detailed usage statistics