Details

Title: Разработка автономного хранилища данных на основе инструмента Apache Spark: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Creators: Ло Пиньяо
Scientific adviser: Никифоров Игорь Валерьевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2023
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: автономное хранилище данных; Apache Spark; Apache Hive; Apache Superset; большие данные; оптимизация производительности вычислительных систем хранения данных; offline data warehouse; optimizing the performance of computational storage systems
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 09.04.04
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2023/vr/vr23-3945
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\25075

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Магистерская дипломная работа  посвящена разработке автономного хранилища данных на основе apache Spark и сравнению производительности системы чтения и записи данных с традиционным хранилищем данных, а также использованию планировщика задач для планирования работы системы хранилища данных таким образом, чтобы визуализация данных отражала корреляцию между ними. Предметом исследования является: повышение эффективности обработки и хранения данных в автономных хранилища данных за счет использования алгоритмов высокопроизводительных, распределенных вычислений на основе инструмента Apache Spark. По результатам сравнительного анализа предлагается система автономного хранилища данных на основе хранилища данных Hive и Spark в качестве вычислительного механизма. Описанная система хранилища данных предназначена для сбора и обработки данных, поступающих с внешнего интерфейса, через хранилище данных для обработки и анализа данных и, наконец, на основе потребностей предприятия для визуализации соответствующих данных. В работе описаны детали реализации программного обеспечения, а также поток данных и методы, и методы тестирования конечной системы. Сравнивая эффективность различных протестированных наборов данных, что хранилища данных на базе Spark более эффективны в обработке и хранении данных, чем традиционные хранилища данных.

The masters degree work is devoted to the development of an offline data warehouse based on Apache Spark and a comparison of the performance of a data reading and writing system with a traditional data warehouse, and the use of a task scheduler to schedule the data warehouse system so that data visualization reflects the correlation between them. The subject of the research is: improving the efficiency of processing and storing data in offline data warehouses using algorithms for high-performance, distributed computing based on the tool Apache Spark. Based on the results of the comparative analysis, a stand-alone data warehouse system based on the Hive data warehouse and Spark as a computing engine is proposed. The described data warehouse system is designed to collect and process data coming from external interface, through data warehouse for data processing and analysis and finally based on enterprise needs for visualization of relevant data. The paper describes the details of the software implementation as well as the data flow and the methods and techniques for testing the final system. By comparing the performance of the different data sets tested, that Spark-based data warehouses are more efficient in processing and storing data than traditional data warehouses.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 1
Last 30 days: 0
Detailed usage statistics