Балансировка трафика программно-определяемой сети методами машинного обучения на основе Policy-based обучения с подкреплением: выпускная квалификационная работа бакалавра: направление 11.03.02 «Инфокоммуникационные технологии и системы связи» ; образовательная программа 11.03.02_01 «Системы мобильной связи»

Чепурнов, Евгений Алексеевич

Детальная информация

Название	Балансировка трафика программно-определяемой сети методами машинного обучения на основе Policy-based обучения с подкреплением: выпускная квалификационная работа бакалавра: направление 11.03.02 «Инфокоммуникационные технологии и системы связи» ; образовательная программа 11.03.02_01 «Системы мобильной связи»
Авторы	Чепурнов Евгений Алексеевич
Научный руководитель	Кудряшова Татьяна Юрьевна
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт электроники и телекоммуникаций
Выходные сведения	Санкт-Петербург, 2025
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	обучение с подкреплением ; интеллектуальная маршрутизация ; SDN ; балансировка трафика ; A2C ; SAC ; PPO ; TRPO ; OpenWRT ; SLA ; reinforcement learning ; intelligent routing ; traffic balancing
Тип документа	Выпускная квалификационная работа бакалавра
Тип файла	PDF
Язык	Русский
Уровень высшего образования	Бакалавриат
Код специальности ФГОС	11.03.02
Группа специальностей ФГОС	110000 - Электроника, радиотехника и системы связи
DOI	10.18720/SPBPU/3/2025/vr/vr25-3124
Права доступа	Доступ по паролю из сети Интернет (чтение)
Дополнительно	Новинка
Ключ записи	ru\spstu\vkr\36423
Дата создания записи	08.08.2025

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Цель работы – разработка интеллектуальной системы балансировки трафика в SDN-сетях, обеспечивающей соответствие требованиям SLA в условиях переменной нагрузки. Для достижения цели были решены следующие задачи: анализ существующих подходов к маршрутизации, выбор и реализация алгоритмов обучения с подкреплением (A2C, SAC, PPO, TRPO), моделирование тестовой среды, проведение сравнительных испытаний и формирование рекомендаций по применению. Работа выполнена на базе предприятия-заказчика ПАО «Газпром нефть». В рамках работы проведено моделирование сети, реализованы программные агенты на основе методов обучения с подкреплением, организована система тестирования в виртуальной среде. Были проведены симуляции, сравнительный анализ и оценка производительности. Предложенное решение может быть использовано в телекоммуникационных системах как на производительных, так и на встраиваемых устройствах. Результаты работы позволяют рекомендовать внедрение RL-агентов в SDN-инфраструктуры для повышения адаптивности и качества обслуживания. В процессе работы использовались технологии: PyTorch, Docker, OpenWRT, netem, iperf, а также инструменты мониторинга и анализа сетевых метрик.

The goal of this work is to develop an intelligent traffic balancing system for SDN networks that ensures compliance with SLA requirements under variable load conditions. To achieve this goal, the following tasks were solved: analysis of existing routing approaches, selection and implementation of reinforcement learning algorithms (A2C, SAC, PPO, TRPO), simulation of a test environment, conducting comparative experiments, and formulating application guidelines. The work was carried out on the basis of the client company PJSC “Gazprom Neft”. Within the project, network modeling was performed, software agents based on reinforcement learning methods were implemented, and a virtual testing system was organized. A series of simulations, comparative performance evaluations, and analytical assessments were conducted. The proposed solution can be applied in telecommunications systems on both high-performance servers and embedded devices. The results of the study support the recommendation to integrate RL-based agents into SDN infrastructures to improve adaptability and service quality. The project employed technologies such as PyTorch, Docker, OpenWRT, netem, iperf, and specialized tools for monitoring and analyzing network metrics.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Список аббревиатур, сокращений и обозначений
Введение
Глава 1. Обзор имеющихся технологий, постановка задачи и выбор методов
1.1. Обзор имеющихся технологий
- 1.1.1. Традиционные методы балансировки трафика
- 1.1.2. Программно-определяемые сети (SDN)
1.2. Постановка задачи
- 1.2.1. Требования к системе балансировки
- 1.2.2. Ключевые метрики
1.3. Выбор методов обучения с подкреплением
- 1.3.1. Обоснование выбора обучения с подкреплением
- 1.3.2. Policy-Based методы обучения с подкреплением
- 1.3.3. Алгоритмы и их особенности
- 1.3.4. Формализация задачи в терминах RL
- 1.4. Выводы по первой главе
Глава 2. Реализация выбранных методов
2.1. Математические основы Policy-based методов обучения с подкреплением
- 2.1.1. Формализация задачи и основные понятия
- 2.1.2. Теорема градиента политики и обучение
- 2.1.3. Роль функции награды в Policy-Based обучении
2.2. Реализация алгоритма A2C (Advantage Actor-Critic)
- 2.2.1. Архитектура нейронной сети
- 2.2.2. Алгоритм обучения
2.3. Реализация алгоритма Soft Actor-Critic (SAC)
- 2.3.1. Теоретическая основа максимизации энтропии
- 2.3.2. Архитектура нейронной сети и реализация
2.4. Реализация алгоритма PPO (Proximal Policy Optimization)
- 2.4.1. Общая идея и clipped surrogate objective
- 2.4.2. Архитектура Actor-Critic и механизм обновления
- 2.4.3. Generalized Advantage Estimation (GAE)
2.5. Реализация алгоритма TRPO (Trust Region Policy Optimization)
- 2.5.1. Теоретические основы и trust region формализм
- 2.5.2. Архитектура TRPO и реализация
- 2.5.3. Оптимизация политики с ограничением KL-дивергенции
2.6. Вычислительная сложность
2.7. Оптимизация для устройств с ограниченными ресурсами
2.8. Выводы по второй главе
Глава 3. Тестирование на виртуальном окружении, сравнение результатов
3.1. Организация экспериментального исследования
- 3.1.1. Описание тестового стенда
- 3.1.2. Методология проведения экспериментов
- 3.1.3. Концепция эпизодов обучения
- 3.1.4. Режимы обучения и тестирования
3.2. Описание тестовых сценариев
- 3.2.1. Сценарий "Стабильные сетевые условия"
- 3.2.2. Сценарий "Реалистичные условия WAN"
- 3.2.3. Сценарий "Тест восстановления после сбоев"
3.3 Сравнительный анализ алгоритмов маршрутизации на Linux-платформе
- 3.3.1. Сравнение в режиме онлайн-обучения
- 3.3.2. Сравнение в режиме предобученных моделей
3.4. Исследование производительности на встраиваемых системах (OpenWRT)
- 3.4.1. Адаптация алгоритмов для ресурсно-ограниченных систем
- 3.4.2. Производительность в динамических условиях
3.5. Анализ соответствия SLA требованиям
- 3.5.1. Методология расчета SLA compliance
- 3.5.2. Анализ критических метрик
3.6. Декомпозиция задержки
3.7. Практические рекомендации
- 3.7.1. Выбор алгоритма
- 3.7.2. Режимы развёртывания
- 3.7.3. Конфигурационные пороги
3.8. Выводы по третей главе
- 3.8.1. Режим онлайн-обучения
- 3.8.2. Реалистичная WAN-среда
- 3.8.3. Отказоустойчивость и восстановление
- 3.8.4. Встраиваемые системы (OpenWRT)
- 3.8.5. Сравнение режимов обучения
- 3.8.6. Выполнение SLA
Заключение
Список использованных источников

Количество обращений: 0
За последние 30 дней: 0

Подробная статистика