Разработка фреймворка, расширяющего возможности группировки данных Apache Spark: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_01 «Технология разработки и сопровождения качественного программного продукта» = Development of a framework that extends Apache Spark’s capabilities to group data

Попов, Максим Константинович

Details

Title	Разработка фреймворка, расширяющего возможности группировки данных Apache Spark: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_01 «Технология разработки и сопровождения качественного программного продукта» = Development of a framework that extends Apache Spark’s capabilities to group data
Creators	Попов Максим Константинович
Scientific adviser	Дробинцев Павел Дмитриевич
Other creators	Локшина Екатерина Геннадиевна
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint	Санкт-Петербург, 2020
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	большие данные ; Apache Spark ; Scala ; Hadoop ; Apache Hive ; оптимизация ; архитектура системы ; Big Data ; optimization ; systems architecture
Document type	Master graduation qualification work
Language	Russian
Level of education	Master
Speciality code (FGOS)	09.04.04
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
Links	Отзыв руководителя ; Рецензия ; Отчет о проверке на объем и корректность внешних заимствований
DOI	10.18720/SPBPU/3/2020/vr/vr20-1959
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key	ru\spstu\vkr\6801
Record create date	7/10/2020

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Данная работа посвящена разработке фреймворка, расширяющего возможности Apache Spark за счет сокращения количества преобразований с широкими зависимостями и, как следствие, количества перетасовок данных. Это достигается за счет объединения последовательных алгоритмов обработки данных в цепочки на основе общих ключевых полей, а также группировки самих данных по ключам, на основе которых и происходит обработка. Задачи, решенные в ходе работы: 1. Разработка метода оптимизации программ с большим количеством преобразований с широкими зависимостями. 2. Реализация с помощью данного метода фреймворка, принимающий на вход реализации алгоритмов, подлежащих объединению в цепочки. Разработанный фреймворк был применен в системе сопоставления, содержащей большое количество последовательных алгоритмов обработки данных, требующих группировок данных. После этого было проведено сравнение эффективности выполнения программы до и после оптимизации. В результате применение разработанного фреймворка позволило избежать лишних перемещений данных между узлами кластера и увеличить максимально возможную нагрузку на оперативную память. Благодаря этому у системы повысилась скорость работы и эффективность расхода ресурсов.

This study is devoted to the development of a framework that extends the capabilities of Apache Spark by reducing the number of transformations with wide dependencies and, as a result, the number of data shuffles. This achieved by combining sequential data processing algorithms in chains based on common key fields, as well as grouping the data itself according to the keys by which the processing takes place. Tasks solved in the course of work: 1. Development of an optimization method for programs with many transformations with wide dependencies. 2. Implementation of the framework using this method, which takes as input implementations of the algorithms to be combined into chains. The developed framework was applied to a matching system containing many sequential data processing algorithms requiring data groupings. After that, a comparison of the effectiveness of the program before and after optimization was made. As a result, the application of the developed framework allowed avoiding unnecessary data movement between cluster nodes and increasing the maximum possible load on the RAM. Thanks to this, the system has increased operating speed and resource efficiency.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 12
Last 30 days: 0

Detailed usage statistics