Детальная информация

Название: Разработка фреймворка, расширяющего возможности группировки данных Apache Spark: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_01 «Технология разработки и сопровождения качественного программного продукта»
Авторы: Попов Максим Константинович
Научный руководитель: Дробинцев Павел Дмитриевич
Другие авторы: Локшина Екатерина Геннадиевна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: большие данные; Apache Spark; Scala; Hadoop; Apache Hive; оптимизация; архитектура системы; Big Data; optimization; systems architecture
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1959
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\6801

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Данная работа посвящена разработке фреймворка, расширяющего возможности Apache Spark за счет сокращения количества преобразований с широкими зависимостями и, как следствие, количества перетасовок данных. Это достигается за счет объединения последовательных алгоритмов обработки данных в цепочки на основе общих ключевых полей, а также группировки самих данных по ключам, на основе которых и происходит обработка. Задачи, решенные в ходе работы: 1. Разработка метода оптимизации программ с большим количеством преобразований с широкими зависимостями. 2. Реализация с помощью данного метода фреймворка, принимающий на вход реализации алгоритмов, подлежащих объединению в цепочки. Разработанный фреймворк был применен в системе сопоставления, содержащей большое количество последовательных алгоритмов обработки данных, требующих группировок данных. После этого было проведено сравнение эффективности выполнения программы до и после оптимизации. В результате применение разработанного фреймворка позволило избежать лишних перемещений данных между узлами кластера и увеличить максимально возможную нагрузку на оперативную память. Благодаря этому у системы повысилась скорость работы и эффективность расхода ресурсов.

This study is devoted to the development of a framework that extends the capabilities of Apache Spark by reducing the number of transformations with wide dependencies and, as a result, the number of data shuffles. This achieved by combining sequential data processing algorithms in chains based on common key fields, as well as grouping the data itself according to the keys by which the processing takes place. Tasks solved in the course of work: 1. Development of an optimization method for programs with many transformations with wide dependencies. 2. Implementation of the framework using this method, which takes as input implementations of the algorithms to be combined into chains. The developed framework was applied to a matching system containing many sequential data processing algorithms requiring data groupings. After that, a comparison of the effectiveness of the program before and after optimization was made. As a result, the application of the developed framework allowed avoiding unnecessary data movement between cluster nodes and increasing the maximum possible load on the RAM. Thanks to this, the system has increased operating speed and resource efficiency.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 12
За последние 30 дней: 0
Подробная статистика