Details

Title: Исследование архитектуры распределенного реляционного хранилища большого объёма разнородных данных: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Высокопроизводительные облачные вычисления и программное обеспечение роботов»
Creators: Лисенкова Анна Алексеевна
Scientific adviser: Попов Сергей Геннадьевич
Other creators: Голубева Ирина Эрнестовна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт прикладной математики и механики
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: кластер; шардинг; горизонтальное масштабирование; реляционные базы данных; big data; PostgreSQL; cluster; sharding; horizontal scaling; RDBMS
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 02.04.01
Speciality group (FGOS): 020000 - Компьютерные и информационные науки
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1500
Rights: Доступ по паролю из сети Интернет (чтение)
Record key: ru\spstu\vkr\8219

Allowed Actions:

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Тема выпускной квалификационной работы: «Исследование архитектуры распределенного реляционного хранилища большого объёма разнородных данных». При работе с базами данных больших объёмов возникает проблема длительного времени доступа к данным. Методы вертикального и горизонтального масштабирования позволяют увеличить производительность системы за счет организации кластера и распределения данных между несколькими серверами. Работа посвящена разработке и исследованию архитектуры распределенного реляционного хранилища большого объёма разнородных данных. Задачи, которые решались в ходе исследования: 1. Изучение особенностей построения распределенных хранилищ данных. 2. Выявление основных компонент, необходимых для организации кластера. 3. Исследование алгоритмов декомпозации данных. 4. Разработка архитектуры распределенного реляционного хранилища. 5. Анализ производительности построенной системы. В работе проанализированы подходы к организации распределенных реляционных и NoSQL хранилищ. В результате спроектирована архитектура распределенного хранилища на основе СУБД PostgreSQL и расширения Citus, реализован макет кластера, состоящий из двух серверов, а также проведен сравнительный анализ производительности полученной системы с одноузловым решением. Результаты могут быть использованы для построения распределенных хранилищ большого объёма разнородных данных с высокой степенью устойчивости и быстрым доступом к данным.

The subject of the graduate qualification work is “The architecture of distributed relational storage of large volume of heterogeneous data study”. When working with databases of large volumes, the problem of a long access time to the data arises. The methods of vertical and horizontal scaling can increase system performance by organizing a cluster and distributing data between multiple servers. The given work is devoted to the architecture of the distributed relational storage of large volume of heterogeneous data development and study. The research set the following goals: 1. The study of building distributed data warehouses features. 2. Identification of the main components necessary for the organization of the cluster. 3. The study of data decomposition algorithms. 4. Development of distributed relational storage architecture. 5. Analysis of the built system performance. The study resulted into analysis of the approaches to the organization of distributed relational and NoSQL repositories. As a result, the architecture of distributed storage based on the PostgreSQL DBMS and the Citus extension was designed, a cluster layout consisting of two servers was implemented, and a comparative analysis of the performance of the resulting system with a single-node solution was carried out. The results can be used to build distributed storages of a large volume of heterogeneous data with a high degree of stability and quick access to data.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read
External organizations N2 All Read
External organizations N1 All
Internet Authorized users SPbPU Read
Internet Authorized users (not from SPbPU, N2) Read
Internet Authorized users (not from SPbPU, N1)
-> Internet Anonymous

Usage statistics

stat Access count: 3
Last 30 days: 0
Detailed usage statistics