Разработка системы извлечения данных из гетерогенных баз данных с помощью централизованного SQL-интерфейса: выпускная квалификационная работа магистра: направление 02.04.03 «Математическое обеспечение и администрирование информационных систем» ; образовательная программа 02.04.03_01 «Разработка и математическое обеспечение интеллектуальных информационных систем»

Губеева, Анна Тимуровна

Детальная информация

Название	Разработка системы извлечения данных из гетерогенных баз данных с помощью централизованного SQL-интерфейса: выпускная квалификационная работа магистра: направление 02.04.03 «Математическое обеспечение и администрирование информационных систем» ; образовательная программа 02.04.03_01 «Разработка и математическое обеспечение интеллектуальных информационных систем»
Авторы	Губеева Анна Тимуровна
Научный руководитель	Сабинин Олег Юрьевич
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения	Санкт-Петербург, 2025
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	гетерогенные субд ; диалект sql ; извлечение данных ; объединение разнородных данных ; централизованный sql-интерфейс ; apache spark ; heterogeneous dbms ; sql dialect ; data extraction ; combining heterogeneous data ; centralized sql interface
Тип документа	Выпускная квалификационная работа магистра
Тип файла	PDF
Язык	Русский
Уровень высшего образования	Магистратура
Код специальности ФГОС	02.04.03
Группа специальностей ФГОС	020000 - Компьютерные и информационные науки
DOI	10.18720/SPBPU/3/2025/vr/vr25-4157
Права доступа	Доступ по паролю из сети Интернет (чтение)
Дополнительно	Новинка
Ключ записи	ru\spstu\vkr\37931
Дата создания записи	23.09.2025

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

В данной работе изложена концепция создания и экспериментального исследования программной системы, обеспечивающей централизованный SQL-интерфейс в запросах к гетерогенным базам данных (PostgreSQL, Oracle, MySQL, MongoDB, Redis, Cassandra). Рассмотрены реляционные и нереляционные базы данных, структура SELECT-запроса и его диалектические отличия между PostgreSQL, Oracle, MySQL. Проанализированы существующие методы извлечения и объединения данных из гетерогенных базах данных. Рассмотрены инструменты распределенной обработки данных, парсинга, а также методы детектирования диалекта SQL. Предложена и спроектирована архитектура системы извлечения данных на основе Apache Spark и SQLGlot. Разработан прототип системы, поддерживающей детектирование диалектов SQL Oracle Database, PostgreSQL, MySQL и распараллеливание процессов обработки разнородных данных. Проведено тестирование на наборе данных IMDb, в ходе которого была измерена производительность системы при выполнении SQL-запросов различной сложности. Результаты показали, что система успешно обрабатывает многотабличные запросы на миллионах строк, корректно выполняет фильтрацию и поддерживает работу с диалектно-специфичными конструкциями. При взаимодействии с СУБД PostgreSQL, Oracle и MySQL система продемонстрировала сопоставимую, а в отдельных случаях — более высокую производительность по сравнению с существующими решениями.

This paper describes the concept of creating and experimentally researching a software system that provides a centralized SQL interface for queries against heterogeneous databases (PostgreSQL, Oracle, MySQL, MongoDB, Redis, Cassandra). Relational and non-relational databases, the structure of the SELECT query and its dialectical differences between PostgreSQL, Oracle, MySQL are considered. The existing methods of extracting and combining data from heterogeneous databases are analyzed. Distributed data processing, parsing, and SQL dialect detection tools are considered. The architecture of a data extraction system based on Apache Spark and SQLGlot is proposed and designed. A prototype system has been developed that supports detection of SQL dialects Oracle Database, PostgreSQL, MySQL and parallelization of heterogeneous data processing processes. Testing was conducted on the IMDb dataset, during which the system performance was measured when executing SQL queries of varying complexity. The results showed that the system successfully processes multi-tabular queries on millions of rows, performs filtering correctly, and supports working with dialect-specific constructs. When interacting with PostgreSQL, Oracle, and MySQL databases, the system demonstrated comparable and, in some cases, higher performance compared to existing solutions.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Количество обращений: 1
За последние 30 дней: 1

Подробная статистика