Details

Title Автоматическая генерация конфигураций элементов инфраструктуры программных систем для работы с большими данными: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_02 «Системное программирование»
Creators Хамидуллин Ильсаф Ильназович
Scientific adviser Новиков Федор Александрович
Organization Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects автоматизация развертывания ; большие данные ; генерация конфигураций ; декларативное описание ; yaml ; docker compose ; потоковая обработка в реальном времени ; инфраструктура как код ; deployment automation ; big data ; configuration generation ; declarative description ; docker ; real time stream processing ; infrastructure as code
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 01.03.02
Speciality group (FGOS) 010000 - Математика и механика
DOI 10.18720/SPBPU/3/2025/vr/vr25-3262
Rights Доступ по паролю из сети Интернет (чтение, печать)
Additionally New arrival
Record key ru\spstu\vkr\38394
Record create date 9/23/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Дипломная работа посвящена актуальной проблеме автоматизации развертывания инфраструктуры для работы с большими данными. Целью работы является разработка программного инструмента Data Platform Deployer(далее dpd), способного на основе декларативного описания, предоставленного пользователем в формате YAML, генерировать полный набор конфигурационных файлов и скриптов для запуска комплексной платформы данных. Входное описание включает определение таких компонентов, как системы управления базами данных (PostgreSQL в качестве источника, ClickHouse в качестве аналитического хранилища), S3-совместимое объектное хранилище (Minio), брокер сообщений Apache Kafka с настроенными топиками и коннекторами Kafka Connect (включая Debezium для CDC и S3 Sink), а также инструмент бизнес-аналитики Apache Superset. Разработанный инструмент dpd автоматически формирует docker– compose.yml файлы для контейнеризации сервисов, скрипты их инициализации и обеспечивает согласованность настроек между всеми компонентами. Ключевыми преимуществами предлагаемого решения являются воспроизводимость конфигураций, значительное сокращение трудозатрат по сравнению с ручной настройкой, модульность для поддержки новых компонентов и обеспечение корректности взаимосвязей в развертываемой системе.

This thesis addresses the relevant problem of automating the deployment of infrastructure for big data operations. The aim of the work is to develop a software tool dpd (Data Platform Deployer) capable of generating a complete set of configuration files and scripts for launching a comprehensive data platform based on a declarative description provided by the user in YAML format. The input description includes the definition of components such as database management systems (PostgreSQL as a source, ClickHouse as an analytical data warehouse), S3-compatible object storage (Minio), Apache Kafka message broker with configured topics and Kafka Connect connectors (including Debezium for CDC and S3 Sink), and the Apache Superset business intelligence tool. The developed dpd tool automatically generates docker-compose.yml files for service containerization, their initialization scripts, and ensures the consistency of settings across all components. Key advantages of the proposed solution include configuration reproducibility, significant reduction in labor costs compared to manual setup, modularity for supporting new components, and ensuring the correctness of interconnections within the deployed system.

Network User group Action
ILC SPbPU Local Network All
Read Print
Internet Authorized users SPbPU
Read Print
Internet Anonymous
  • Автоматическая генерация конфигураций элементов инфраструктуры программных систем для работы с большими данными
    • Введение
    • Постановка задачи
    • 1. Обзор существующих решений
    • 2. Введение в предметную область
    • 3. Разработка инструмента
    • 4. Проектирование и реализация инфраструктуры программных системы для работы с большими данными
    • 5. Исследование разработанного продукта
    • Заключение
    • Словарь терминов
    • Список использованных источников
    • Приложение 1. Грамматика языка DPD
    • Приложение 2. SQL код для забора данных из Kafka в ClickHouse
    • Приложение 3. Апробация в компанию МАГНИТ

Access count: 0 
Last 30 days: 0

Detailed usage statistics