Исследование и адаптация существующих алгоритмов естественного градиентного спуска к задаче Q-learning: выпускная квалификационная работа магистра: 02.04.03 - Математическое обеспечение и администрирование информационных систем ; 02.04.03_01 - Математическое обеспечение и администрирование корпоративных информационных систем

Бельтюков, Роман Константинович

Детальная информация

Название	Исследование и адаптация существующих алгоритмов естественного градиентного спуска к задаче Q-learning: выпускная квалификационная работа магистра: 02.04.03 - Математическое обеспечение и администрирование информационных систем ; 02.04.03_01 - Математическое обеспечение и администрирование корпоративных информационных систем
Авторы	Бельтюков Роман Константинович
Научный руководитель	Тушканова Ольга Николаевна
Другие авторы	Колосова Ольга Владимировна
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения	Санкт-Петербург, 2019
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	машинное обучение ; естественный градиентный спуск ; Q-обучение
УДК	004.85
Тип документа	Выпускная квалификационная работа магистра
Тип файла	PDF
Язык	Русский
Уровень высшего образования	Магистратура
Код специальности ФГОС	02.04.03
Группа специальностей ФГОС	020000 - Компьютерные и информационные науки
Ссылки	Отзыв руководителя ; Рецензия ; Отчет о проверке на объем и корректность внешних заимствований
DOI	10.18720/SPBPU/3/2019/vr/vr19-952
Права доступа	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи	ru\spstu\vkr\1987
Дата создания записи	18.09.2019

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

В ходе работы было проведено исследование и адаптация алгоритма естественного градиентного спуска к задаче Q-обучения. Была выбрана и реализована архитектура агента Q-обучения, созданы и протестированы модули для проведения экспериментов, а также реализованы несколько архитектур нейронных сетей для работы с различными средами. Реализованный агент был протестирован в различных сценариях, после чего были описаны выводы и предложены рекомендации по дальнейшим исследованиям.

In the course of the work, the study and adaptation of the natural gradient descent algorithm to the q-learning problem were carried out. The Q-learning agent architecture was chosen and implemented, modules for conducting experiments were created and tested, and several neural network architectures were implemented for working with various environments. The completed agent was tested in various scenarios, after which the conclusions were described and recommendations for further research were proposed.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Исследование и адаптация существующих алгоритмов естественного градиентного спуска к задаче Q-learning
- Введение
- 1. Естественный градиент в задаче обучения с подкреплением
- 2. Алгоритмы Q-обучения и источники данных
- 3. Программная реализация исследуемых алгоритмов
- 4. Экспериментальное исследование алгоритмов
- Заключение
- Список использованных источников
- Приложение 1. Сравнительная таблица фреймворков для обучения с подкреплением
- Приложение 2. График средней награды в процессе обучения в средах Acrobot-v1 и CartPole-v1
- Приложение 3. График средней награды в процессе обучения в средах MountainCar-v0 и LunarLander-v2
- Приложение 4. Иллюстрации вариантов архитектур сети
- Приложение 5. Исходный код модуля предобработки данных
- Приложение 6. Исходный код модуля агента
- Приложение 7. Исходный код модуля подбора гиперпараметров
- Приложение 8. Исходный код модуля создания файлов для обучения
- Приложение 9. Исходный код модуля визуализации
- Приложение 10. Исходный код файла SLURM

Количество обращений: 46
За последние 30 дней: 0

Подробная статистика