Разработка алгоритма навигации для квадрокоптера на основе обучения с подкреплением: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа)»

Арбаш, Элиас

Вход в систему

Детальная информация

	Таблица	Карточка	RUSMARC

Название:	Разработка алгоритма навигации для квадрокоптера на основе обучения с подкреплением: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа)»
Авторы:	Арбаш Элиас
Научный руководитель:	Ростов Николай Васильевич
Другие авторы:	Селиванова Елена Николаевна
Организация:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения:	Санкт-Петербург, 2020
Коллекция:	Выпускные квалификационные работы; Общая коллекция
Тематика:	Летательные аппараты беспилотные; Принятие решений; Навигация; обучение с подкреплением; временные различия; reinforcement learning; temporal difference
УДК:	629.7.05-52; 629.072
Тип документа:	Выпускная квалификационная работа магистра
Тип файла:	PDF
Язык:	Русский
Уровень высшего образования:	Магистратура
Код специальности ФГОС:	09.04.01
Группа специальностей ФГОС:	090000 - Информатика и вычислительная техника
Ссылки:	Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI:	10.18720/SPBPU/3/2020/vr/vr20-5601
Права доступа:	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи:	ru\spstu\vkr\15471

Разрешенные действия: –

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В последние годы беспилотные летательные аппараты (БЛА) играют важную роль в выполнении задач, которые могут быть сложными, трудоёмкими и ресурсоёмкими для экспертов. Некоторые из этих задач выполняются в неизвестных условиях, полных препятствий, когда оператору необходимо управлять БЛА в соответствии с человеческим опытом принятия решений. Таким образом, автономная навигация в таких условиях является одной из сложных задач по управлению БЛА. Автономное отслеживание движущихся целей является одной из таких сложных задач, требующих от робота способности планировать и принимать решения, чтобы справиться с ситуациями, которые перехватывают квадрокоптер на пути к достижению желаемой цели. Используя oбучение с подкреплением, данная работа рассматривает автономное слежение за движущимися целями с помощью квадрокоптера как высокоуровневую задачу, разбивая её на более мелкие подзадачи, начиная с достижения автономной навигации без модели и заканчивая статической точкой. Результаты демонстрируют эффективность использования алгоритмов временной разницы обучения с подкреплением: Off-policy Q-обучения и On-policy SARSA, а также их свойства. Полученные результаты демонстрируют важнейшие эффекты проектирования функции поощрения и выбора гиперпараметров, а также предлагают решения для будущей работы, основанные на опыте обучения и анализе.

In recent years, unmanned aerial vehicles (UAVs) have played an important role in performing tasks that can be complex, time consuming and resource intensive for experts. Some of these tasks are performed in unknown conditions full of obstacles, when the operator needs to control the UAV in accordance with human decision-making experience. Thus, autonomous navigation in such conditions is one of the most difficult tasks for UAV control. Autonomous tracking of moving targets is one such challenging task, requiring the robot to be able to plan and make decisions in order to cope with situations that intercept the quadcopter on its way to achieving the desired target. Using reinforcement learning, this paper treats autonomous tracking of moving targets with a quadcopter as a high-level task, breaking it down into smaller sub-tasks ranging from achieving autonomous navigation without a model to a static point. The results demonstrate the effectiveness of using the algorithms for the time difference of reinforcement learning: Off-policy Q-learning and On-policy SARSA, as well as their properties. The findings demonstrate the critical design effects of the reward function and hyperparameter selection, and suggest solutions for future work based on learning and analysis experiences.

Права на использование объекта хранения

	Место доступа		Группа пользователей		Действие
	Локальная сеть ИБК СПбПУ		Все
	Интернет		Авторизованные пользователи СПбПУ
	Интернет		Анонимные пользователи

BKP_ Элиас Арбаш (1)
ELIAS
- Introduction
- General description of the Quadrocopter navigation
  - Navigation
  - Quadrocopter
    - Sensors
      - Inertial Moment Unit
      - Camera
- Quadrocopter Mathematical Model
  - Kinematic Model of the Quadrocopter
  - Dynamic Model of the Quadcopter
    - Forces
    - Actuating Torques
- Reinforcement Learning
  - What is Reinforcement Learning?
  - The difference from Supervised and Unsupervised Learning
  - Why RL?
  - RL Components
  - Markov Decision Process
  - Value function - Action value function - Bellman equation
  - Model Free VS Model Based
  - The Explore Exploit Dilemma
- Reinforcement Learning Algorithm Review
  - Temporal Difference Learning (TD)
    - SARSA
    - Q-Learning
  - Deep Learning
  - camera frames with convolutional neural network
  - Deep Q-Learning
- Implementation of RL algorithm in Quadrocopter
  - Robot Operating System (ROS)
    - ROS Advantages
    - ROS Disadvantages
  - Gazebo Simulator
  - OpenAI Gym and OpenAI ROS
  - Quadrocopter Navigation Algorithm Main Requirements
- RL Algorithms Training and Results Analysis
  - First Algorithm Implementation - SARSA
    - First Training
    - Second Training
  - Second Algorithm Implementation - QLearning
    - First Training
    - Second Training
  - Results Analysis
- CONCLUSION
  - Outlook
- REFERENCE LIST

Статистика использования

Количество обращений: 5
За последние 30 дней: 0
Подробная статистика

Детальная информация

Аннотация

Права на использование объекта хранения

Оглавление

Статистика использования