Details

Title Построение инфраструктуры для извлечения, обработки и анализа данных: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Development an infrastructure for data extraction, processing, and analysis
Creators Пихтин Владислав Дмитриевич
Scientific adviser Черненький Андрей Владимирович
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2026
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects big data ; lambda-архитектура ; apache kafka ; clickhouse ; apache spark ; потоковая обработка данных ; системы массового обслуживания ; data lakehouse ; e-commerce ; lambda architecture ; stream processing ; queuing theory
Document type Bachelor graduation qualification work
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.02
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2026/vr/vr26-560
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\40355
Record create date 4/20/2026

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Задачи, решаемые в ходе исследования: 1) Исследование современных архитектурных паттернов обработки больших данных. 2) Сравнительный анализ технологий потоковой обработки и аналитического хранения данных. 3) Проектирование логической и физической модели данных для скоростного и пакетного слоёв обработки. 4) Практическая реализация аналитической платформы в контейнерной среде. 5) Математическое моделирование производительности подсистемы потоковой обработки на базе теории массового обслуживания. Работа выполнена с использованием реального технологического стенда, развёрнутого в контейнерной среде Docker. Разработан генератор синтетических событий, имитирующий нагрузку маркетплейса. Построена математическая модель системы массового обслуживания, позволяющая прогнозировать задержки доставки данных и определять оптимальную конфигурацию при масштабировании. В результате реализована полнофункциональная аналитическая платформа, обеспечивающая сквозную обработку данных от генерации события до визуализации в BI. Получены аналитические формулы для расчёта времени пребывания события в системе, определены требования к конфигурации. Используемые технологии: Apache Kafka, ClickHouse, Apache Spark, Apache Hadoop HDFS, Apache Airflow, Apache Superset, JupyterHub, PostgreSQL, Prometheus, Grafana, Docker, Docker Compose, Python, PySpark.

The research addressed the following objectives: 1) Investigation of modern big data architectural patterns. 2) Comparative analysis of stream processing technologies and analytical storage systems. 3) Design of logical and physical data models for speed and batch processing layers. 4) Practical implementation of the analytical platform in a Docker container environment. 5) Mathematical modeling of the stream processing subsystem performance based on queuing theory. The work was performed using a real technological testbed deployed in a Docker container environment. A synthetic event generator was developed to simulate marketplace load. A queuing theory mathematical model was constructed to predict data delivery latency and determine optimal configuration for scaling. As a result, a fully functional analytical platform was implemented, providing end-to-end data processing from event generation to visualization in BI dashboards. Analytical formulas were derived for calculating event residence time in the system, and configuration requirements were determined for industrial load. Technologies used: Apache Kafka, ClickHouse, Apache Spark, Apache Hadoop HDFS, Apache Airflow, Apache Superset, JupyterHub, PostgreSQL, Prometheus, Grafana, Docker, Docker Compose, Python, PySpark.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous

Access count: 0 
Last 30 days: 0

Detailed usage statistics