Details

Title: Разработка фреймворка, расширяющего возможности группировки данных Apache Spark: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators: Попов Максим Константинович
Scientific adviser: Дробинцев Павел Дмитриевич
Other creators: Локшина Екатерина Геннадиевна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: большие данные; Apache Spark; Scala; Hadoop; Apache Hive; оптимизация; архитектура системы; Big Data; optimization; systems architecture
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Speciality code (FGOS): 09.04.04
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1959
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Данная работа посвящена разработке фреймворка, расширяющего возможности Apache Spark за счет сокращения количества преобразований с широкими зависимостями и, как следствие, количества перетасовок данных. Это достигается за счет объединения последовательных алгоритмов обработки данных в цепочки на основе общих ключевых полей, а также группировки самих данных по ключам, на основе которых и происходит обработка. Задачи, решенные в ходе работы: 1. Разработка метода оптимизации программ с большим количеством преобразований с широкими зависимостями. 2. Реализация с помощью данного метода фреймворка, принимающий на вход реализации алгоритмов, подлежащих объединению в цепочки. Разработанный фреймворк был применен в системе сопоставления, содержащей большое количество последовательных алгоритмов обработки данных, требующих группировок данных. После этого было проведено сравнение эффективности выполнения программы до и после оптимизации. В результате применение разработанного фреймворка позволило избежать лишних перемещений данных между узлами кластера и увеличить максимально возможную нагрузку на оперативную память. Благодаря этому у системы повысилась скорость работы и эффективность расхода ресурсов.

This study is devoted to the development of a framework that extends the capabilities of Apache Spark by reducing the number of transformations with wide dependencies and, as a result, the number of data shuffles. This achieved by combining sequential data processing algorithms in chains based on common key fields, as well as grouping the data itself according to the keys by which the processing takes place. Tasks solved in the course of work: 1. Development of an optimization method for programs with many transformations with wide dependencies. 2. Implementation of the framework using this method, which takes as input implementations of the algorithms to be combined into chains. The developed framework was applied to a matching system containing many sequential data processing algorithms requiring data groupings. After that, a comparison of the effectiveness of the program before and after optimization was made. As a result, the application of the developed framework allowed avoiding unnecessary data movement between cluster nodes and increasing the maximum possible load on the RAM. Thanks to this, the system has increased operating speed and resource efficiency.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 1
Last 30 days: 0
Detailed usage statistics