Детальная информация

Название Разработка масштабируемой системы извлечения, преобразования и загрузки данных (ETL) для потоковой обработки информации из множества источников: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_02 «Математические методы анализа и визуализации данных»
Авторы Марин Егор Владимирович
Научный руководитель Беляев Сергей Юрьевич
Организация Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Выходные сведения Санкт-Петербург, 2025
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика etl ; масштабируемая система ; потоковая обработка ; интеграция данных ; аналитика ; визуализация ; хранилище данных ; scalable system ; stream data processing ; data integration ; analytics ; visualization ; data warehouse
Тип документа Выпускная квалификационная работа магистра
Тип файла PDF
Язык Русский
Уровень высшего образования Магистратура
Код специальности ФГОС 01.04.02
Группа специальностей ФГОС 010000 - Математика и механика
DOI 10.18720/SPBPU/3/2025/vr/vr25-3628
Права доступа Доступ по паролю из сети Интернет (чтение)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\39149
Дата создания записи 24.09.2025

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Тема выпускной квалификационной работы: «Разработка масштабируемой системы извлечения, преобразования и загрузки данных (ETL) для потоковой обработки информации из множества источников.» Данная работа посвящена проектированию и реализации масштабируемой ETL-системы, предназначенной для потоковой обработки и интеграции информа- ции, поступающей из различных источников. В работе рассмотрены современные подходы к построению ETL-конвейеров, проведён анализ существующих решений и выделены основные требования к системам, работающим в условиях высоких нагрузок и разнообразия форматов данных. В рамках исследования была спроектирована архитектура системы, включа- ющая отдельные модули для приёма, преобразования, хранения и визуализации данных. Особое внимание уделено вопросам горизонтального масштабирова- ния, отказоустойчивости и обеспечения консистентности данных на всех этапах обработки. Реализована поддержка работы с несколькими источниками данных в режиме реального времени, а также обеспечена возможность аналитической обработки и построения отчётов через web-интерфейс. Проведены экспериментальные испытания системы на синтетических и ре- альных данных, выполнен анализ производительности, выявлены и устранены узкие места. По результатам тестирования система показала высокую эффективность в обработке больших объёмов данных и устойчивость к сбоям. Разработанное решение может быть использовано в корпоративных информационных системах, системах мониторинга и аналитики для автоматизации процессов интеграции и анализа данных.

This thesis is devoted to the design and implementation of a scalable ETL system intended for stream processing and integration of information from various sources. The work reviews modern approaches to building ETL pipelines, analyzes existing solutions, and highlights the main requirements for systems operating under high loads and with diverse data formats. As part of the research, the system architecture was designed, including separate modules for data ingestion, transformation, storage, and visualization. Special attention was paid to horizontal scalability, fault tolerance, and ensuring data consistency at all stages of processing. The system supports working with multiple data sources in real time and provides analytical processing and reporting capabilities through a web interface. Experimental tests were carried out on both synthetic and real datasets, performance was analyzed, and bottlenecks were identified and eliminated. The results demonstrated high efficiency in processing large volumes of data and resilience to failures. The developed solution can be applied in corporate information systems, monitoring, and analytics systems to automate data integration and analysis processes.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать
Интернет Авторизованные пользователи СПбПУ
Прочитать
Интернет Анонимные пользователи
  • Разработка масштабируемой системы извлечения, преобразования и загрузки данных (ETL) для потоковой обработки информации из множества источников.
    • Введение
    • 1. Обзор существующих решений
    • 2. Проектирование решения
    • 3. Результаты
    • 4. Оптимизация решения
    • Заключение
    • Список использованных источников

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика