Детальная информация
| Название | Построение инфраструктуры для извлечения, обработки и анализа данных: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Development an infrastructure for data extraction, processing, and analysis |
|---|---|
| Авторы | Пихтин Владислав Дмитриевич |
| Научный руководитель | Черненький Андрей Владимирович |
| Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
| Выходные сведения | Санкт-Петербург, 2026 |
| Коллекция | Выпускные квалификационные работы ; Общая коллекция |
| Тематика | big data ; lambda-архитектура ; apache kafka ; clickhouse ; apache spark ; потоковая обработка данных ; системы массового обслуживания ; data lakehouse ; e-commerce ; lambda architecture ; stream processing ; queuing theory |
| Тип документа | Выпускная квалификационная работа бакалавра |
| Язык | Русский |
| Уровень высшего образования | Бакалавриат |
| Код специальности ФГОС | 09.03.02 |
| Группа специальностей ФГОС | 090000 - Информатика и вычислительная техника |
| DOI | 10.18720/SPBPU/3/2026/vr/vr26-560 |
| Права доступа | Доступ по паролю из сети Интернет (чтение) |
| Дополнительно | Новинка |
| Ключ записи | ru\spstu\vkr\40355 |
| Дата создания записи | 20.04.2026 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
| Группа | Анонимные пользователи |
|---|---|
| Сеть | Интернет |
Задачи, решаемые в ходе исследования: 1) Исследование современных архитектурных паттернов обработки больших данных. 2) Сравнительный анализ технологий потоковой обработки и аналитического хранения данных. 3) Проектирование логической и физической модели данных для скоростного и пакетного слоёв обработки. 4) Практическая реализация аналитической платформы в контейнерной среде. 5) Математическое моделирование производительности подсистемы потоковой обработки на базе теории массового обслуживания. Работа выполнена с использованием реального технологического стенда, развёрнутого в контейнерной среде Docker. Разработан генератор синтетических событий, имитирующий нагрузку маркетплейса. Построена математическая модель системы массового обслуживания, позволяющая прогнозировать задержки доставки данных и определять оптимальную конфигурацию при масштабировании. В результате реализована полнофункциональная аналитическая платформа, обеспечивающая сквозную обработку данных от генерации события до визуализации в BI. Получены аналитические формулы для расчёта времени пребывания события в системе, определены требования к конфигурации. Используемые технологии: Apache Kafka, ClickHouse, Apache Spark, Apache Hadoop HDFS, Apache Airflow, Apache Superset, JupyterHub, PostgreSQL, Prometheus, Grafana, Docker, Docker Compose, Python, PySpark.
The research addressed the following objectives: 1) Investigation of modern big data architectural patterns. 2) Comparative analysis of stream processing technologies and analytical storage systems. 3) Design of logical and physical data models for speed and batch processing layers. 4) Practical implementation of the analytical platform in a Docker container environment. 5) Mathematical modeling of the stream processing subsystem performance based on queuing theory. The work was performed using a real technological testbed deployed in a Docker container environment. A synthetic event generator was developed to simulate marketplace load. A queuing theory mathematical model was constructed to predict data delivery latency and determine optimal configuration for scaling. As a result, a fully functional analytical platform was implemented, providing end-to-end data processing from event generation to visualization in BI dashboards. Analytical formulas were derived for calculating event residence time in the system, and configuration requirements were determined for industrial load. Technologies used: Apache Kafka, ClickHouse, Apache Spark, Apache Hadoop HDFS, Apache Airflow, Apache Superset, JupyterHub, PostgreSQL, Prometheus, Grafana, Docker, Docker Compose, Python, PySpark.
| Место доступа | Группа пользователей | Действие |
|---|---|---|
| Локальная сеть ИБК СПбПУ | Все |
|
| Интернет | Авторизованные пользователи СПбПУ |
|
| Интернет | Анонимные пользователи |
|
Количество обращений: 0
За последние 30 дней: 0