Построение инфраструктуры для извлечения, обработки и анализа данных: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Development an infrastructure for data extraction, processing, and analysis

Пихтин, Владислав Дмитриевич

Детальная информация

Название	Построение инфраструктуры для извлечения, обработки и анализа данных: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Development an infrastructure for data extraction, processing, and analysis
Авторы	Пихтин Владислав Дмитриевич
Научный руководитель	Черненький Андрей Владимирович
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения	Санкт-Петербург, 2026
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	big data ; lambda-архитектура ; apache kafka ; clickhouse ; apache spark ; потоковая обработка данных ; системы массового обслуживания ; data lakehouse ; e-commerce ; lambda architecture ; stream processing ; queuing theory
Тип документа	Выпускная квалификационная работа бакалавра
Язык	Русский
Уровень высшего образования	Бакалавриат
Код специальности ФГОС	09.03.02
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2026/vr/vr26-560
Права доступа	Доступ по паролю из сети Интернет (чтение)
Дополнительно	Новинка
Ключ записи	ru\spstu\vkr\40355
Дата создания записи	20.04.2026

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Задачи, решаемые в ходе исследования: 1) Исследование современных архитектурных паттернов обработки больших данных. 2) Сравнительный анализ технологий потоковой обработки и аналитического хранения данных. 3) Проектирование логической и физической модели данных для скоростного и пакетного слоёв обработки. 4) Практическая реализация аналитической платформы в контейнерной среде. 5) Математическое моделирование производительности подсистемы потоковой обработки на базе теории массового обслуживания. Работа выполнена с использованием реального технологического стенда, развёрнутого в контейнерной среде Docker. Разработан генератор синтетических событий, имитирующий нагрузку маркетплейса. Построена математическая модель системы массового обслуживания, позволяющая прогнозировать задержки доставки данных и определять оптимальную конфигурацию при масштабировании. В результате реализована полнофункциональная аналитическая платформа, обеспечивающая сквозную обработку данных от генерации события до визуализации в BI. Получены аналитические формулы для расчёта времени пребывания события в системе, определены требования к конфигурации. Используемые технологии: Apache Kafka, ClickHouse, Apache Spark, Apache Hadoop HDFS, Apache Airflow, Apache Superset, JupyterHub, PostgreSQL, Prometheus, Grafana, Docker, Docker Compose, Python, PySpark.

The research addressed the following objectives: 1) Investigation of modern big data architectural patterns. 2) Comparative analysis of stream processing technologies and analytical storage systems. 3) Design of logical and physical data models for speed and batch processing layers. 4) Practical implementation of the analytical platform in a Docker container environment. 5) Mathematical modeling of the stream processing subsystem performance based on queuing theory. The work was performed using a real technological testbed deployed in a Docker container environment. A synthetic event generator was developed to simulate marketplace load. A queuing theory mathematical model was constructed to predict data delivery latency and determine optimal configuration for scaling. As a result, a fully functional analytical platform was implemented, providing end-to-end data processing from event generation to visualization in BI dashboards. Analytical formulas were derived for calculating event residence time in the system, and configuration requirements were determined for industrial load. Technologies used: Apache Kafka, ClickHouse, Apache Spark, Apache Hadoop HDFS, Apache Airflow, Apache Superset, JupyterHub, PostgreSQL, Prometheus, Grafana, Docker, Docker Compose, Python, PySpark.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Количество обращений: 0
За последние 30 дней: 0

Подробная статистика