Details
Title | Балансировка трафика программно-определяемой сети методами машинного обучения на основе Value-based обучения с подкреплением: выпускная квалификационная работа бакалавра: направление 11.03.02 «Инфокоммуникационные технологии и системы связи» ; образовательная программа 11.03.02_01 «Системы мобильной связи» |
---|---|
Creators | Макаров Алексей Алексеевич |
Scientific adviser | Кудряшова Татьяна Юрьевна |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт электроники и телекоммуникаций |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | обучение с подкреплением ; интеллектуальная маршрутизация ; SDN ; балансировка трафика ; DQN ; QR-DQN ; Rainbow DQN ; OpenWRT ; SLA ; reinforcement learning ; intelligent routing ; traffic balancing |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 11.03.02 |
Speciality group (FGOS) | 110000 - Электроника, радиотехника и системы связи |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-3122 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Additionally | New arrival |
Record key | ru\spstu\vkr\36421 |
Record create date | 8/8/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Цель работы — разработка интеллектуальной системы балансировки трафика в SDN-сетях, обеспечивающей соответствие требованиям SLA в условиях переменной нагрузки. Для достижения цели были решены следующие задачи: анализ существующих подходов к маршрутизации, выбор и реализация RL-методов (DQN, DDQN, QR-DQN, Rainbow DQN), моделирование тестовой среды, проведение сравнительных испытаний и формирование рекомендаций по применению. Работа выполнена на базе предприятия-заказчика ПАО «Газпром нефть». В рамках работы проведено моделирование сети, реализованы программные агенты на основе методов обучения с подкреплением, организована система тестирования в виртуальной среде. Были проведены симуляции, сравнительный анализ и оценка производительности. Предложенное решение может быть использовано в телекоммуникационных системах как на производительных, так и на встраиваемых устройствах, включая маршрутизаторы с OpenWRT. Результаты работы позволяют рекомендовать внедрение RL-агентов в SDN-инфраструктуры для повышения адаптивности и качества обслуживания. В процессе работы использовались технологии: PyTorch, Docker, OpenWRT, netem, iperf, инструменты мониторинга и анализа сетевых метрик.
The aim of this work is to develop an intelligent traffic balancing system in SDN environments that ensures compliance with SLA requirements under variable network load. To achieve this goal, the following tasks were solved: analysis of existing routing approaches, selection and implementation of RL methods (DQN, DDQN, QR-DQN, Rainbow DQN), simulation of the test environment, comparative performance evaluation, and formulation of deployment recommendations. The work was carried out at the educational laboratory of the Higher School of Applied Physics and Space Technologies at SPbPU in cooperation with the industry client PJSC Gazprom Neft. The research included simulation of network infrastructure, implementation of software agents using reinforcement learning, and a testbed deployed in a virtual environment. Calculations, simulations, comparative analysis, and performance assessment were conducted. The results show that reinforcement learning methods can achieve SLA compliance up to 86.2% even under unstable network conditions. The proposed solution is applicable in telecommunication systems both on high-performance servers and on embedded devices such as OpenWRT-based routers. The findings support the recommendation of RL-agent integration into SDN infrastructures to improve adaptability and quality of service. Technologies used: PyTorch, Docker, OpenWRT, netem, iperf, monitoring and network metric analysis tools.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- Список аббревиатур, сокращений и обозначений
- Введение
- Глава 1. Обзор имеющихся технологий, постановка задачи и выбор методов
- 1.1. Обзор имеющихся технологий
- 1.1.1. Ограничения традиционных методов балансировки трафика
- 1.1.2. Программно-определяемые сети (SDN)
- 1.2. Постановка задачи
- 1.2.1. Требования к системе балансировки
- 1.2.2. Ключевые метрики
- 1.3. Выбор методов обучения с подкреплением
- 1.3.1. Обоснование выбора обучения с подкреплением
- 1.3.2. Value-Based методы обучения с подкреплением
- 1.3.3. Конкретные алгоритмы и их особенности
- 1.3.4. Формализация задачи в терминах обучения с подкреплением
- 1.4. Выводы по первой главе
- Глава 2. Реализация выбранных методов
- 2.1. Математические основы Value-based методов обучения с подкреплением
- 2.1.1. Формализация задачи балансировки трафика
- 2.1.2. Q-функция и основы Q-learning
- 2.2. Реализация Deep Q-Network (DQN)
- 2.2.1. Архитектура нейронной сети
- 2.2.2. Механизмы стабилизации обучения
- 2.3. Реализация Double DQN (DDQN)
- 2.3.1. Проблема переоценки в DQN
- 2.3.2. Решение проблемы в DDQN
- 2.4. Реализация Quantile Regression DQN (QR-DQN)
- 2.4.1. Дистрибутивное RL
- 2.4.2. Квантильная регрессия
- 2.4.3. Функция потерь для квантильной регрессии
- 2.5. Реализация Rainbow DQN
- 2.5.1. Дуэльная архитектура нейронной сети
- 2.5.2. Зашумленные линейные слои
- 2.5.3. Многошаговое обучение
- 2.6. Теоретический сравнительный анализ алгоритмов
- 2.6.1. Вычислительная сложность
- 2.6.2. Адаптивность к изменяющейся среде
- 2.7. Оптимизация для устройств с ограниченными ресурсами
- 2.8. Выводы по второй главе
- Глава 3. Тестирование на виртуальном окружении, сравнение результатов
- 3.1. Организация экспериментального исследования
- 3.1.1. Описание тестового стенда
- 3.1.2. Методология проведения экспериментов
- 3.1.3. Концепция эпизодов обучения
- 3.1.4. Режимы обучения и тестирования
- 3.2. Описание тестовых сценариев
- 3.2.1. Сценарий «Стабильные сетевые условия»
- 3.2.2. Сценарий «Реалистичные условия WAN»
- 3.2.3 Сценарий «Тест восстановления после сбоев»
- 3.3. Сравнительный анализ алгоритмов маршрутизации на Linux-платформе
- 3.3.1. Сравнение в режиме онлайн-обучения
- Базовые алгоритмы против Value-Based RL
- Анализ в условиях WAN сети
- Устойчивость к отказам и восстановление
- 3.3.2. Сравнение в режиме предобученных моделей
- Анализ готовых решений
- 3.4. Исследование производительности на встраиваемых системах (OpenWRT)
- 3.4.1. Адаптация алгоритмов для ресурсно-ограниченных систем
- Value-Based RL Lite алгоритмы на OpenWRT
- 3.4.2. Производительность в динамических условиях
- OpenWRT в реалистичных WAN условиях
- 3.5. Анализ соответствия SLA требованиям
- 3.5.1. Методология расчета SLA compliance
- 3.5.2. Анализ критических метрик
- 3.6. Декомпозиция задержки
- 3.7. Практические рекомендации
- 3.7.1. Рекомендации по выбору алгоритмов
- 3.7.2. Рекомендации по режимам развертывания
- 3.7.3. Параметры конфигурации
- 3.8. Выводы по главе
- 3.8.1. Режим онлайн-обучения
- 3.8.2. Реалистичная WAN-среда
- 3.8.3. Отказоустойчивость и восстановление
- 3.8.4. Встраиваемые системы (OpenWRT)
- 3.8.5. Сравнение режимов обучения
- 3.8.6. Выполнение SLA
- 3.8.7. Декомпозиция задержки
- Заключение
- Список использованных источников
Access count: 0
Last 30 days: 0