Details

Title Разработка масштабируемой системы извлечения, преобразования и загрузки данных (ETL) для потоковой обработки информации из множества источников: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_02 «Математические методы анализа и визуализации данных»
Creators Марин Егор Владимирович
Scientific adviser Беляев Сергей Юрьевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects etl ; масштабируемая система ; потоковая обработка ; интеграция данных ; аналитика ; визуализация ; хранилище данных ; scalable system ; stream data processing ; data integration ; analytics ; visualization ; data warehouse
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 01.04.02
Speciality group (FGOS) 010000 - Математика и механика
DOI 10.18720/SPBPU/3/2025/vr/vr25-3628
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\39149
Record create date 9/24/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Тема выпускной квалификационной работы: «Разработка масштабируемой системы извлечения, преобразования и загрузки данных (ETL) для потоковой обработки информации из множества источников.» Данная работа посвящена проектированию и реализации масштабируемой ETL-системы, предназначенной для потоковой обработки и интеграции информа- ции, поступающей из различных источников. В работе рассмотрены современные подходы к построению ETL-конвейеров, проведён анализ существующих решений и выделены основные требования к системам, работающим в условиях высоких нагрузок и разнообразия форматов данных. В рамках исследования была спроектирована архитектура системы, включа- ющая отдельные модули для приёма, преобразования, хранения и визуализации данных. Особое внимание уделено вопросам горизонтального масштабирова- ния, отказоустойчивости и обеспечения консистентности данных на всех этапах обработки. Реализована поддержка работы с несколькими источниками данных в режиме реального времени, а также обеспечена возможность аналитической обработки и построения отчётов через web-интерфейс. Проведены экспериментальные испытания системы на синтетических и ре- альных данных, выполнен анализ производительности, выявлены и устранены узкие места. По результатам тестирования система показала высокую эффективность в обработке больших объёмов данных и устойчивость к сбоям. Разработанное решение может быть использовано в корпоративных информационных системах, системах мониторинга и аналитики для автоматизации процессов интеграции и анализа данных.

This thesis is devoted to the design and implementation of a scalable ETL system intended for stream processing and integration of information from various sources. The work reviews modern approaches to building ETL pipelines, analyzes existing solutions, and highlights the main requirements for systems operating under high loads and with diverse data formats. As part of the research, the system architecture was designed, including separate modules for data ingestion, transformation, storage, and visualization. Special attention was paid to horizontal scalability, fault tolerance, and ensuring data consistency at all stages of processing. The system supports working with multiple data sources in real time and provides analytical processing and reporting capabilities through a web interface. Experimental tests were carried out on both synthetic and real datasets, performance was analyzed, and bottlenecks were identified and eliminated. The results demonstrated high efficiency in processing large volumes of data and resilience to failures. The developed solution can be applied in corporate information systems, monitoring, and analytics systems to automate data integration and analysis processes.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous
  • Разработка масштабируемой системы извлечения, преобразования и загрузки данных (ETL) для потоковой обработки информации из множества источников.
    • Введение
    • 1. Обзор существующих решений
    • 2. Проектирование решения
    • 3. Результаты
    • 4. Оптимизация решения
    • Заключение
    • Список использованных источников

Access count: 0 
Last 30 days: 0

Detailed usage statistics