Балансировка трафика программно-определяемой сети методами машинного обучения на основе Value-based обучения с подкреплением: выпускная квалификационная работа бакалавра: направление 11.03.02 «Инфокоммуникационные технологии и системы связи» ; образовательная программа 11.03.02_01 «Системы мобильной связи»

Макаров, Алексей Алексеевич

Details

Title	Балансировка трафика программно-определяемой сети методами машинного обучения на основе Value-based обучения с подкреплением: выпускная квалификационная работа бакалавра: направление 11.03.02 «Инфокоммуникационные технологии и системы связи» ; образовательная программа 11.03.02_01 «Системы мобильной связи»
Creators	Макаров Алексей Алексеевич
Scientific adviser	Кудряшова Татьяна Юрьевна
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт электроники и телекоммуникаций
Imprint	Санкт-Петербург, 2025
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	обучение с подкреплением ; интеллектуальная маршрутизация ; SDN ; балансировка трафика ; DQN ; QR-DQN ; Rainbow DQN ; OpenWRT ; SLA ; reinforcement learning ; intelligent routing ; traffic balancing
Document type	Bachelor graduation qualification work
File type	PDF
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	11.03.02
Speciality group (FGOS)	110000 - Электроника, радиотехника и системы связи
DOI	10.18720/SPBPU/3/2025/vr/vr25-3122
Rights	Доступ по паролю из сети Интернет (чтение)
Additionally	New arrival
Record key	ru\spstu\vkr\36421
Record create date	8/8/2025

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Цель работы — разработка интеллектуальной системы балансировки трафика в SDN-сетях, обеспечивающей соответствие требованиям SLA в условиях переменной нагрузки. Для достижения цели были решены следующие задачи: анализ существующих подходов к маршрутизации, выбор и реализация RL-методов (DQN, DDQN, QR-DQN, Rainbow DQN), моделирование тестовой среды, проведение сравнительных испытаний и формирование рекомендаций по применению. Работа выполнена на базе предприятия-заказчика ПАО «Газпром нефть». В рамках работы проведено моделирование сети, реализованы программные агенты на основе методов обучения с подкреплением, организована система тестирования в виртуальной среде. Были проведены симуляции, сравнительный анализ и оценка производительности. Предложенное решение может быть использовано в телекоммуникационных системах как на производительных, так и на встраиваемых устройствах, включая маршрутизаторы с OpenWRT. Результаты работы позволяют рекомендовать внедрение RL-агентов в SDN-инфраструктуры для повышения адаптивности и качества обслуживания. В процессе работы использовались технологии: PyTorch, Docker, OpenWRT, netem, iperf, инструменты мониторинга и анализа сетевых метрик.

The aim of this work is to develop an intelligent traffic balancing system in SDN environments that ensures compliance with SLA requirements under variable network load. To achieve this goal, the following tasks were solved: analysis of existing routing approaches, selection and implementation of RL methods (DQN, DDQN, QR-DQN, Rainbow DQN), simulation of the test environment, comparative performance evaluation, and formulation of deployment recommendations. The work was carried out at the educational laboratory of the Higher School of Applied Physics and Space Technologies at SPbPU in cooperation with the industry client PJSC Gazprom Neft. The research included simulation of network infrastructure, implementation of software agents using reinforcement learning, and a testbed deployed in a virtual environment. Calculations, simulations, comparative analysis, and performance assessment were conducted. The results show that reinforcement learning methods can achieve SLA compliance up to 86.2% even under unstable network conditions. The proposed solution is applicable in telecommunication systems both on high-performance servers and on embedded devices such as OpenWRT-based routers. The findings support the recommendation of RL-agent integration into SDN infrastructures to improve adaptability and quality of service. Technologies used: PyTorch, Docker, OpenWRT, netem, iperf, monitoring and network metric analysis tools.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Список аббревиатур, сокращений и обозначений
Введение
Глава 1. Обзор имеющихся технологий, постановка задачи и выбор методов
1.1. Обзор имеющихся технологий
- 1.1.1. Ограничения традиционных методов балансировки трафика
- 1.1.2. Программно-определяемые сети (SDN)
1.2. Постановка задачи
- 1.2.1. Требования к системе балансировки
- 1.2.2. Ключевые метрики
1.3. Выбор методов обучения с подкреплением
- 1.3.1. Обоснование выбора обучения с подкреплением
- 1.3.2. Value-Based методы обучения с подкреплением
- 1.3.3. Конкретные алгоритмы и их особенности
- 1.3.4. Формализация задачи в терминах обучения с подкреплением
1.4. Выводы по первой главе
Глава 2. Реализация выбранных методов
2.1. Математические основы Value-based методов обучения с подкреплением
- 2.1.1. Формализация задачи балансировки трафика
- 2.1.2. Q-функция и основы Q-learning
2.2. Реализация Deep Q-Network (DQN)
- 2.2.1. Архитектура нейронной сети
- 2.2.2. Механизмы стабилизации обучения
2.3. Реализация Double DQN (DDQN)
- 2.3.1. Проблема переоценки в DQN
- 2.3.2. Решение проблемы в DDQN
2.4. Реализация Quantile Regression DQN (QR-DQN)
- 2.4.1. Дистрибутивное RL
- 2.4.2. Квантильная регрессия
- 2.4.3. Функция потерь для квантильной регрессии
2.5. Реализация Rainbow DQN
- 2.5.1. Дуэльная архитектура нейронной сети
- 2.5.2. Зашумленные линейные слои
- 2.5.3. Многошаговое обучение
2.6. Теоретический сравнительный анализ алгоритмов
- 2.6.1. Вычислительная сложность
- 2.6.2. Адаптивность к изменяющейся среде
2.7. Оптимизация для устройств с ограниченными ресурсами
2.8. Выводы по второй главе
Глава 3. Тестирование на виртуальном окружении, сравнение результатов
3.1. Организация экспериментального исследования
- 3.1.1. Описание тестового стенда
- 3.1.2. Методология проведения экспериментов
- 3.1.3. Концепция эпизодов обучения
- 3.1.4. Режимы обучения и тестирования
3.2. Описание тестовых сценариев
- 3.2.1. Сценарий «Стабильные сетевые условия»
- 3.2.2. Сценарий «Реалистичные условия WAN»
- 3.2.3 Сценарий «Тест восстановления после сбоев»
3.3. Сравнительный анализ алгоритмов маршрутизации на Linux-платформе
- 3.3.1. Сравнение в режиме онлайн-обучения
- Базовые алгоритмы против Value-Based RL
- Анализ в условиях WAN сети
- Устойчивость к отказам и восстановление
- 3.3.2. Сравнение в режиме предобученных моделей
- Анализ готовых решений
3.4. Исследование производительности на встраиваемых системах (OpenWRT)
- 3.4.1. Адаптация алгоритмов для ресурсно-ограниченных систем
- Value-Based RL Lite алгоритмы на OpenWRT
- 3.4.2. Производительность в динамических условиях
- OpenWRT в реалистичных WAN условиях
3.5. Анализ соответствия SLA требованиям
- 3.5.1. Методология расчета SLA compliance
- 3.5.2. Анализ критических метрик
3.6. Декомпозиция задержки
3.7. Практические рекомендации
- 3.7.1. Рекомендации по выбору алгоритмов
- 3.7.2. Рекомендации по режимам развертывания
- 3.7.3. Параметры конфигурации
3.8. Выводы по главе
- 3.8.1. Режим онлайн-обучения
- 3.8.2. Реалистичная WAN-среда
- 3.8.3. Отказоустойчивость и восстановление
- 3.8.4. Встраиваемые системы (OpenWRT)
- 3.8.5. Сравнение режимов обучения
- 3.8.6. Выполнение SLA
- 3.8.7. Декомпозиция задержки
Заключение
Список использованных источников

Access count: 0
Last 30 days: 0

Detailed usage statistics