Детальная информация

Название Автоматическая генерация конфигураций элементов инфраструктуры программных систем для работы с большими данными: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_02 «Системное программирование»
Авторы Хамидуллин Ильсаф Ильназович
Научный руководитель Новиков Федор Александрович
Организация Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Выходные сведения Санкт-Петербург, 2025
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика автоматизация развертывания ; большие данные ; генерация конфигураций ; декларативное описание ; yaml ; docker compose ; потоковая обработка в реальном времени ; инфраструктура как код ; deployment automation ; big data ; configuration generation ; declarative description ; docker ; real time stream processing ; infrastructure as code
Тип документа Выпускная квалификационная работа бакалавра
Тип файла PDF
Язык Русский
Уровень высшего образования Бакалавриат
Код специальности ФГОС 01.03.02
Группа специальностей ФГОС 010000 - Математика и механика
DOI 10.18720/SPBPU/3/2025/vr/vr25-3262
Права доступа Доступ по паролю из сети Интернет (чтение, печать)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\38394
Дата создания записи 23.09.2025

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Дипломная работа посвящена актуальной проблеме автоматизации развертывания инфраструктуры для работы с большими данными. Целью работы является разработка программного инструмента Data Platform Deployer(далее dpd), способного на основе декларативного описания, предоставленного пользователем в формате YAML, генерировать полный набор конфигурационных файлов и скриптов для запуска комплексной платформы данных. Входное описание включает определение таких компонентов, как системы управления базами данных (PostgreSQL в качестве источника, ClickHouse в качестве аналитического хранилища), S3-совместимое объектное хранилище (Minio), брокер сообщений Apache Kafka с настроенными топиками и коннекторами Kafka Connect (включая Debezium для CDC и S3 Sink), а также инструмент бизнес-аналитики Apache Superset. Разработанный инструмент dpd автоматически формирует docker– compose.yml файлы для контейнеризации сервисов, скрипты их инициализации и обеспечивает согласованность настроек между всеми компонентами. Ключевыми преимуществами предлагаемого решения являются воспроизводимость конфигураций, значительное сокращение трудозатрат по сравнению с ручной настройкой, модульность для поддержки новых компонентов и обеспечение корректности взаимосвязей в развертываемой системе.

This thesis addresses the relevant problem of automating the deployment of infrastructure for big data operations. The aim of the work is to develop a software tool dpd (Data Platform Deployer) capable of generating a complete set of configuration files and scripts for launching a comprehensive data platform based on a declarative description provided by the user in YAML format. The input description includes the definition of components such as database management systems (PostgreSQL as a source, ClickHouse as an analytical data warehouse), S3-compatible object storage (Minio), Apache Kafka message broker with configured topics and Kafka Connect connectors (including Debezium for CDC and S3 Sink), and the Apache Superset business intelligence tool. The developed dpd tool automatically generates docker-compose.yml files for service containerization, their initialization scripts, and ensures the consistency of settings across all components. Key advantages of the proposed solution include configuration reproducibility, significant reduction in labor costs compared to manual setup, modularity for supporting new components, and ensuring the correctness of interconnections within the deployed system.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать
Интернет Авторизованные пользователи СПбПУ
Прочитать Печать
Интернет Анонимные пользователи
  • Автоматическая генерация конфигураций элементов инфраструктуры программных систем для работы с большими данными
    • Введение
    • Постановка задачи
    • 1. Обзор существующих решений
    • 2. Введение в предметную область
    • 3. Разработка инструмента
    • 4. Проектирование и реализация инфраструктуры программных системы для работы с большими данными
    • 5. Исследование разработанного продукта
    • Заключение
    • Словарь терминов
    • Список использованных источников
    • Приложение 1. Грамматика языка DPD
    • Приложение 2. SQL код для забора данных из Kafka в ClickHouse
    • Приложение 3. Апробация в компанию МАГНИТ

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика