Details
Title | Автоматическая генерация конфигураций элементов инфраструктуры программных систем для работы с большими данными: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_02 «Системное программирование» |
---|---|
Creators | Хамидуллин Ильсаф Ильназович |
Scientific adviser | Новиков Федор Александрович |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | автоматизация развертывания ; большие данные ; генерация конфигураций ; декларативное описание ; yaml ; docker compose ; потоковая обработка в реальном времени ; инфраструктура как код ; deployment automation ; big data ; configuration generation ; declarative description ; docker ; real time stream processing ; infrastructure as code |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 01.03.02 |
Speciality group (FGOS) | 010000 - Математика и механика |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-3262 |
Rights | Доступ по паролю из сети Интернет (чтение, печать) |
Additionally | New arrival |
Record key | ru\spstu\vkr\38394 |
Record create date | 9/23/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Дипломная работа посвящена актуальной проблеме автоматизации развертывания инфраструктуры для работы с большими данными. Целью работы является разработка программного инструмента Data Platform Deployer(далее dpd), способного на основе декларативного описания, предоставленного пользователем в формате YAML, генерировать полный набор конфигурационных файлов и скриптов для запуска комплексной платформы данных. Входное описание включает определение таких компонентов, как системы управления базами данных (PostgreSQL в качестве источника, ClickHouse в качестве аналитического хранилища), S3-совместимое объектное хранилище (Minio), брокер сообщений Apache Kafka с настроенными топиками и коннекторами Kafka Connect (включая Debezium для CDC и S3 Sink), а также инструмент бизнес-аналитики Apache Superset. Разработанный инструмент dpd автоматически формирует docker– compose.yml файлы для контейнеризации сервисов, скрипты их инициализации и обеспечивает согласованность настроек между всеми компонентами. Ключевыми преимуществами предлагаемого решения являются воспроизводимость конфигураций, значительное сокращение трудозатрат по сравнению с ручной настройкой, модульность для поддержки новых компонентов и обеспечение корректности взаимосвязей в развертываемой системе.
This thesis addresses the relevant problem of automating the deployment of infrastructure for big data operations. The aim of the work is to develop a software tool dpd (Data Platform Deployer) capable of generating a complete set of configuration files and scripts for launching a comprehensive data platform based on a declarative description provided by the user in YAML format. The input description includes the definition of components such as database management systems (PostgreSQL as a source, ClickHouse as an analytical data warehouse), S3-compatible object storage (Minio), Apache Kafka message broker with configured topics and Kafka Connect connectors (including Debezium for CDC and S3 Sink), and the Apache Superset business intelligence tool. The developed dpd tool automatically generates docker-compose.yml files for service containerization, their initialization scripts, and ensures the consistency of settings across all components. Key advantages of the proposed solution include configuration reproducibility, significant reduction in labor costs compared to manual setup, modularity for supporting new components, and ensuring the correctness of interconnections within the deployed system.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- Автоматическая генерация конфигураций элементов инфраструктуры программных систем для работы с большими данными
- Введение
- Постановка задачи
- 1. Обзор существующих решений
- 2. Введение в предметную область
- 3. Разработка инструмента
- 4. Проектирование и реализация инфраструктуры программных системы для работы с большими данными
- 5. Исследование разработанного продукта
- Заключение
- Словарь терминов
- Список использованных источников
- Приложение 1. Грамматика языка DPD
- Приложение 2. SQL код для забора данных из Kafka в ClickHouse
- Приложение 3. Апробация в компанию МАГНИТ
Access count: 0
Last 30 days: 0