Details
| Title | Построение инфраструктуры для извлечения, обработки и анализа данных: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Development an infrastructure for data extraction, processing, and analysis |
|---|---|
| Creators | Пихтин Владислав Дмитриевич |
| Scientific adviser | Черненький Андрей Владимирович |
| Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
| Imprint | Санкт-Петербург, 2026 |
| Collection | Выпускные квалификационные работы ; Общая коллекция |
| Subjects | big data ; lambda-архитектура ; apache kafka ; clickhouse ; apache spark ; потоковая обработка данных ; системы массового обслуживания ; data lakehouse ; e-commerce ; lambda architecture ; stream processing ; queuing theory |
| Document type | Bachelor graduation qualification work |
| Language | Russian |
| Level of education | Bachelor |
| Speciality code (FGOS) | 09.03.02 |
| Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
| DOI | 10.18720/SPBPU/3/2026/vr/vr26-560 |
| Rights | Доступ по паролю из сети Интернет (чтение) |
| Additionally | New arrival |
| Record key | ru\spstu\vkr\40355 |
| Record create date | 4/20/2026 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
| Group | Anonymous |
|---|---|
| Network | Internet |
Задачи, решаемые в ходе исследования: 1) Исследование современных архитектурных паттернов обработки больших данных. 2) Сравнительный анализ технологий потоковой обработки и аналитического хранения данных. 3) Проектирование логической и физической модели данных для скоростного и пакетного слоёв обработки. 4) Практическая реализация аналитической платформы в контейнерной среде. 5) Математическое моделирование производительности подсистемы потоковой обработки на базе теории массового обслуживания. Работа выполнена с использованием реального технологического стенда, развёрнутого в контейнерной среде Docker. Разработан генератор синтетических событий, имитирующий нагрузку маркетплейса. Построена математическая модель системы массового обслуживания, позволяющая прогнозировать задержки доставки данных и определять оптимальную конфигурацию при масштабировании. В результате реализована полнофункциональная аналитическая платформа, обеспечивающая сквозную обработку данных от генерации события до визуализации в BI. Получены аналитические формулы для расчёта времени пребывания события в системе, определены требования к конфигурации. Используемые технологии: Apache Kafka, ClickHouse, Apache Spark, Apache Hadoop HDFS, Apache Airflow, Apache Superset, JupyterHub, PostgreSQL, Prometheus, Grafana, Docker, Docker Compose, Python, PySpark.
The research addressed the following objectives: 1) Investigation of modern big data architectural patterns. 2) Comparative analysis of stream processing technologies and analytical storage systems. 3) Design of logical and physical data models for speed and batch processing layers. 4) Practical implementation of the analytical platform in a Docker container environment. 5) Mathematical modeling of the stream processing subsystem performance based on queuing theory. The work was performed using a real technological testbed deployed in a Docker container environment. A synthetic event generator was developed to simulate marketplace load. A queuing theory mathematical model was constructed to predict data delivery latency and determine optimal configuration for scaling. As a result, a fully functional analytical platform was implemented, providing end-to-end data processing from event generation to visualization in BI dashboards. Analytical formulas were derived for calculating event residence time in the system, and configuration requirements were determined for industrial load. Technologies used: Apache Kafka, ClickHouse, Apache Spark, Apache Hadoop HDFS, Apache Airflow, Apache Superset, JupyterHub, PostgreSQL, Prometheus, Grafana, Docker, Docker Compose, Python, PySpark.
| Network | User group | Action |
|---|---|---|
| ILC SPbPU Local Network | All |
|
| Internet | Authorized users SPbPU |
|
| Internet | Anonymous |
|
Access count: 0
Last 30 days: 0