Details
Title | Разработка масштабируемой системы извлечения, преобразования и загрузки данных (ETL) для потоковой обработки информации из множества источников: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_02 «Математические методы анализа и визуализации данных» |
---|---|
Creators | Марин Егор Владимирович |
Scientific adviser | Беляев Сергей Юрьевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | etl ; масштабируемая система ; потоковая обработка ; интеграция данных ; аналитика ; визуализация ; хранилище данных ; scalable system ; stream data processing ; data integration ; analytics ; visualization ; data warehouse |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 01.04.02 |
Speciality group (FGOS) | 010000 - Математика и механика |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-3628 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Additionally | New arrival |
Record key | ru\spstu\vkr\39149 |
Record create date | 9/24/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Тема выпускной квалификационной работы: «Разработка масштабируемой системы извлечения, преобразования и загрузки данных (ETL) для потоковой обработки информации из множества источников.» Данная работа посвящена проектированию и реализации масштабируемой ETL-системы, предназначенной для потоковой обработки и интеграции информа- ции, поступающей из различных источников. В работе рассмотрены современные подходы к построению ETL-конвейеров, проведён анализ существующих решений и выделены основные требования к системам, работающим в условиях высоких нагрузок и разнообразия форматов данных. В рамках исследования была спроектирована архитектура системы, включа- ющая отдельные модули для приёма, преобразования, хранения и визуализации данных. Особое внимание уделено вопросам горизонтального масштабирова- ния, отказоустойчивости и обеспечения консистентности данных на всех этапах обработки. Реализована поддержка работы с несколькими источниками данных в режиме реального времени, а также обеспечена возможность аналитической обработки и построения отчётов через web-интерфейс. Проведены экспериментальные испытания системы на синтетических и ре- альных данных, выполнен анализ производительности, выявлены и устранены узкие места. По результатам тестирования система показала высокую эффективность в обработке больших объёмов данных и устойчивость к сбоям. Разработанное решение может быть использовано в корпоративных информационных системах, системах мониторинга и аналитики для автоматизации процессов интеграции и анализа данных.
This thesis is devoted to the design and implementation of a scalable ETL system intended for stream processing and integration of information from various sources. The work reviews modern approaches to building ETL pipelines, analyzes existing solutions, and highlights the main requirements for systems operating under high loads and with diverse data formats. As part of the research, the system architecture was designed, including separate modules for data ingestion, transformation, storage, and visualization. Special attention was paid to horizontal scalability, fault tolerance, and ensuring data consistency at all stages of processing. The system supports working with multiple data sources in real time and provides analytical processing and reporting capabilities through a web interface. Experimental tests were carried out on both synthetic and real datasets, performance was analyzed, and bottlenecks were identified and eliminated. The results demonstrated high efficiency in processing large volumes of data and resilience to failures. The developed solution can be applied in corporate information systems, monitoring, and analytics systems to automate data integration and analysis processes.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- Разработка масштабируемой системы извлечения, преобразования и загрузки данных (ETL) для потоковой обработки информации из множества источников.
- Введение
- 1. Обзор существующих решений
- 2. Проектирование решения
- 3. Результаты
- 4. Оптимизация решения
- Заключение
- Список использованных источников
Access count: 0
Last 30 days: 0