Разработка автономного хранилища данных на основе инструмента Apache Spark: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»

Ло Пиньяо

Вход в систему

Детальная информация

	Таблица	Карточка	RUSMARC

Название:	Разработка автономного хранилища данных на основе инструмента Apache Spark: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Авторы:	Ло Пиньяо
Научный руководитель:	Никифоров Игорь Валерьевич
Организация:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения:	Санкт-Петербург, 2023
Коллекция:	Выпускные квалификационные работы; Общая коллекция
Тематика:	автономное хранилище данных; Apache Spark; Apache Hive; Apache Superset; большие данные; оптимизация производительности вычислительных систем хранения данных; offline data warehouse; optimizing the performance of computational storage systems
Тип документа:	Выпускная квалификационная работа магистра
Тип файла:	PDF
Язык:	Русский
Уровень высшего образования:	Магистратура
Код специальности ФГОС:	09.04.04
Группа специальностей ФГОС:	090000 - Информатика и вычислительная техника
DOI:	10.18720/SPBPU/3/2023/vr/vr23-3945
Права доступа:	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи:	ru\spstu\vkr\25075

Разрешенные действия: –

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Магистерская дипломная работа посвящена разработке автономного хранилища данных на основе apache Spark и сравнению производительности системы чтения и записи данных с традиционным хранилищем данных, а также использованию планировщика задач для планирования работы системы хранилища данных таким образом, чтобы визуализация данных отражала корреляцию между ними. Предметом исследования является: повышение эффективности обработки и хранения данных в автономных хранилища данных за счет использования алгоритмов высокопроизводительных, распределенных вычислений на основе инструмента Apache Spark. По результатам сравнительного анализа предлагается система автономного хранилища данных на основе хранилища данных Hive и Spark в качестве вычислительного механизма. Описанная система хранилища данных предназначена для сбора и обработки данных, поступающих с внешнего интерфейса, через хранилище данных для обработки и анализа данных и, наконец, на основе потребностей предприятия для визуализации соответствующих данных. В работе описаны детали реализации программного обеспечения, а также поток данных и методы, и методы тестирования конечной системы. Сравнивая эффективность различных протестированных наборов данных, что хранилища данных на базе Spark более эффективны в обработке и хранении данных, чем традиционные хранилища данных.

The masters degree work is devoted to the development of an offline data warehouse based on Apache Spark and a comparison of the performance of a data reading and writing system with a traditional data warehouse, and the use of a task scheduler to schedule the data warehouse system so that data visualization reflects the correlation between them. The subject of the research is: improving the efficiency of processing and storing data in offline data warehouses using algorithms for high-performance, distributed computing based on the tool Apache Spark. Based on the results of the comparative analysis, a stand-alone data warehouse system based on the Hive data warehouse and Spark as a computing engine is proposed. The described data warehouse system is designed to collect and process data coming from external interface, through data warehouse for data processing and analysis and finally based on enterprise needs for visualization of relevant data. The paper describes the details of the software implementation as well as the data flow and the methods and techniques for testing the final system. By comparing the performance of the different data sets tested, that Spark-based data warehouses are more efficient in processing and storing data than traditional data warehouses.

Права на использование объекта хранения

	Место доступа		Группа пользователей		Действие
	Локальная сеть ИБК СПбПУ		Все
	Интернет		Авторизованные пользователи СПбПУ
	Интернет		Анонимные пользователи

Статистика использования

Количество обращений: 1
За последние 30 дней: 0
Подробная статистика