Details

Title Разработка системы извлечения данных из гетерогенных баз данных с помощью централизованного SQL-интерфейса: выпускная квалификационная работа магистра: направление 02.04.03 «Математическое обеспечение и администрирование информационных систем» ; образовательная программа 02.04.03_01 «Разработка и математическое обеспечение интеллектуальных информационных систем»
Creators Губеева Анна Тимуровна
Scientific adviser Сабинин Олег Юрьевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects гетерогенные субд ; диалект sql ; извлечение данных ; объединение разнородных данных ; централизованный sql-интерфейс ; apache spark ; heterogeneous dbms ; sql dialect ; data extraction ; combining heterogeneous data ; centralized sql interface
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 02.04.03
Speciality group (FGOS) 020000 - Компьютерные и информационные науки
DOI 10.18720/SPBPU/3/2025/vr/vr25-4157
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\37931
Record create date 9/23/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

В данной работе изложена концепция создания и экспериментального исследования программной системы, обеспечивающей централизованный SQL-интерфейс в запросах к гетерогенным базам данных (PostgreSQL, Oracle, MySQL, MongoDB, Redis, Cassandra). Рассмотрены реляционные и нереляционные базы данных, структура SELECT-запроса и его диалектические отличия между PostgreSQL, Oracle, MySQL. Проанализированы существующие методы извлечения и объединения данных из гетерогенных базах данных. Рассмотрены инструменты распределенной обработки данных, парсинга, а также методы детектирования диалекта SQL. Предложена и спроектирована архитектура системы извлечения данных на основе Apache Spark и SQLGlot. Разработан прототип системы, поддерживающей детектирование диалектов SQL Oracle Database, PostgreSQL, MySQL и распараллеливание процессов обработки разнородных данных. Проведено тестирование на наборе данных IMDb, в ходе которого была измерена производительность системы при выполнении SQL-запросов различной сложности. Результаты показали, что система успешно обрабатывает многотабличные запросы на миллионах строк, корректно выполняет фильтрацию и поддерживает работу с диалектно-специфичными конструкциями. При взаимодействии с СУБД PostgreSQL, Oracle и MySQL система продемонстрировала сопоставимую, а в отдельных случаях — более высокую производительность по сравнению с существующими решениями.

This paper describes the concept of creating and experimentally researching a software system that provides a centralized SQL interface for queries against heterogeneous databases (PostgreSQL, Oracle, MySQL, MongoDB, Redis, Cassandra). Relational and non-relational databases, the structure of the SELECT query and its dialectical differences between PostgreSQL, Oracle, MySQL are considered. The existing methods of extracting and combining data from heterogeneous databases are analyzed. Distributed data processing, parsing, and SQL dialect detection tools are considered. The architecture of a data extraction system based on Apache Spark and SQLGlot is proposed and designed. A prototype system has been developed that supports detection of SQL dialects Oracle Database, PostgreSQL, MySQL and parallelization of heterogeneous data processing processes. Testing was conducted on the IMDb dataset, during which the system performance was measured when executing SQL queries of varying complexity. The results showed that the system successfully processes multi-tabular queries on millions of rows, performs filtering correctly, and supports working with dialect-specific constructs. When interacting with PostgreSQL, Oracle, and MySQL databases, the system demonstrated comparable and, in some cases, higher performance compared to existing solutions.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous

Access count: 1 
Last 30 days: 1

Detailed usage statistics