Детальная информация
| Название | Исследование и экспериментальное сравнение средств поиска ошибок валидации данных при построении пайплайнов: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии» = Research and experimental comparison of data validation error detection tools for pipeline development |
|---|---|
| Авторы | Метелкин Максим Александрович |
| Научный руководитель | Пархоменко Владимир Андреевич |
| Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
| Выходные сведения | Санкт-Петербург, 2026 |
| Коллекция | Выпускные квалификационные работы ; Общая коллекция |
| Тематика | etl-пайплайны ; качество данных ; валидация данных ; apache airflow ; postgresql ; python ; great expectations ; etl pipelines ; data quality ; data validation |
| Тип документа | Выпускная квалификационная работа бакалавра |
| Язык | Русский |
| Уровень высшего образования | Бакалавриат |
| Код специальности ФГОС | 09.03.03 |
| Группа специальностей ФГОС | 090000 - Информатика и вычислительная техника |
| DOI | 10.18720/SPBPU/3/2026/vr/vr26-583 |
| Права доступа | Доступ по паролю из сети Интернет (чтение) |
| Дополнительно | Новинка |
| Ключ записи | ru\spstu\vkr\40378 |
| Дата создания записи | 20.04.2026 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
| Группа | Анонимные пользователи |
|---|---|
| Сеть | Интернет |
Объект исследования - это ETL-пайплайны обработки данных и процессы обеспечения качества данных в информационно-аналитических системах. Целью работы является исследование и экспериментальное сравнение средств валидации при построении ETL-пайплайнов на базе воспроизводимого исследовательского стенда. Методология работы включает проектирование и реализацию контейнеризированного стенда, экспериментальное сравнение инструментов валидации. В результате разработан и реализован воспроизводимый стенд. Получены и проанализированы результаты экспериментов, проверена гипотеза о сравнении этапной и универсальной стратегий валидации. Работоспособность подтверждена многоуровневым тестированием. Для обоснования подходов к тестированию выполнен эксперимент сравнения SQL-тестовых фреймворков. Область применения результатов - проектирование и развитие ETL/ELT-контуров в информационно-аналитических системах. По итогам работы показано, что сопоставимое экспериментальное сравнение средств валидации возможно при едином протоколе прогонов и централизованном учете метрик, подтверждена практическая целесообразность этапной стратегии валидации для ряда сценариев при сопоставимой стоимости выполнения. В процессе выполнения использовались и разработаны следующие информационные технологии и программные средства: Python, PostgreSQL, Apache Airflow, Docker Compose, а также Git/GitHub и Visual Studio Code.
The object of this study is ETL data processing pipelines and data quality assurance processes in information and analytical systems. The aim of this work is to investigate and experimentally compare validation tools used in ETL pipeline development on the basis of a reproducible research testbed. The methodology includes the design and implementation of a containerized testbed and an experimental comparison of validation tools. As a result, a reproducible testbed was designed and implemented. Experimental results were obtained and analyzed, and the hypothesis comparing stage-based and universal validation strategies was tested. Operability was confirmed through multi-level testing. To justify testing approaches, an experiment comparing SQL testing frameworks was conducted. The area of application of the results is the design and development of ETL/ELT workflows in information and analytical systems. The study demonstrates that a comparable experimental comparison of validation tools is possible with a unified run protocol and centralized metric tracking, and confirms the practical feasibility of a stage-based validation strategy for a range of scenarios at comparable execution cost. During the work, the following information technologies and software tools were used and developed: Python, PostgreSQL, Apache Airflow, Docker Compose, as well as Git/GitHub and Visual Studio Code.
| Место доступа | Группа пользователей | Действие |
|---|---|---|
| Локальная сеть ИБК СПбПУ | Все |
|
| Интернет | Авторизованные пользователи СПбПУ |
|
| Интернет | Анонимные пользователи |
|
- Исследование и экспериментальное сравнение средств поиска ошибок валидации данных при построении пайплайнов
- Введение
- 1. Исследование методик, методов и средств валидации данных при построении ETL пайплайнов
- 2. Проектирование исследовательского стенда для валидации данных при построении пайплайнов
- 3. Реализация исследовательского стенда для валидации данных при построении пайплайнов
- 4. Тестирование и экспериментальное сравнение методов и средств валидации данных при построении ETL пайплайнов
- Заключение
- Список использованных источников
- Приложение 1 Программный код тестов
- Приложение 2 Программный код экспериментального сравнения
- Приложение 3 Программный код реализации стенда
Количество обращений: 0
За последние 30 дней: 0