Исследование и экспериментальный анализ средств работы с большими данными в веб-приложениях: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»

Фролов, Георгий Оскарович

Детальная информация

Название	Исследование и экспериментальный анализ средств работы с большими данными в веб-приложениях: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»
Авторы	Фролов Георгий Оскарович
Научный руководитель	Пархоменко Владимир Андреевич
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения	Санкт-Петербург, 2024
Коллекция	Выпускные квалификационные работы; Общая коллекция
Тематика	большие данные; apache spark; hadoop; пакетные вычисления; потоковые вычисления; big data; batch computing; stream computing
Тип документа	Выпускная квалификационная работа бакалавра
Тип файла	PDF
Язык	Русский
Уровень высшего образования	Бакалавриат
Код специальности ФГОС	09.03.03
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2024/vr/vr24-2882
Права доступа	Доступ по паролю из сети Интернет (чтение)
Ключ записи	ru\spstu\vkr\30345
Дата создания записи	11.07.2024

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Цель работы заключается в выборе, и последующем анализе архитектурных особенностей средств работы с большими данными, а также оценка временной эффективности средств работы с большими данными. В рамках работы были выбраны наиболее популярные средства пакетной и потоковой обработки данных. Были сравнены их архитектурные особенности и подход к формированию и исполнению задач. После чего было проведено экспериментальное сравнение временной эффективности выполнения ими потоковой и пакетной обработки данных. В рамках потоковой обработки данных сравнивались Apache Flink и Spark Streaming. Оба продемонстрировали достойные результаты, и оба могут считаться актуальными инструментами для потоковой обработки данных. Тем не менее Apache Flink продемонстрировал более стабильную и значительно меньшую абсолютную задержку, нежели Spark Streaming. В рамках пакетной обработки данных сравнивались фреймворки Spark, Hive on Tez и Hadoop Map Reduce. Был сделан вывод, что Spark на сегодняшний день превосходит другие сравниваемые инструменты в отношении временной эффективности. Hive on Tez демонстрирует небольшое отставание по эффективности выполнения задач пакетной обработки данных по сравнению со Spark, и ввиду удобства использования HiveQL синтаксиса так признается эффективным и актуальным инструментом. Hadoop Map Reduce, напротив, демонстрирует достаточно слабые результаты и не рекомендуется к использованию ввиду существования более быстрых и удобных альтернатив, перечисленных выше.

The purpose of the work is to select and then analyze the architectural features of big data tools, as well as to evaluate the temporal efficiency of big data tools. Within the framework of the work the most popular means of batch and stream data processing were selected. Their architectural features and approach to task generation and execution were compared. After that, an experimental comparison of the temporal efficiency of their execution of streaming and batch data processing was conducted. Apache Flink and Spark Streaming were compared in terms of streaming data processing. Both demonstrated decent results, and both can be considered relevant tools for stream processing. However, Apache Flink demonstrated a more stable and significantly lower absolute latency than Spark Streaming. The Spark, Hive on Tez, and Hadoop Map Reduce frameworks were compared within the batch processing framework. It was concluded that Spark by far outperforms the other compared tools in terms of temporal efficiency. Hive on Tez shows a slight lag in the efficiency of batch processing tasks compared to Spark, and due to the ease of use of the HiveQL syntax is so recognized as an effective and relevant tool. Hadoop Map Reduce, on the contrary, demonstrates rather poor results and is not recommended for use due to the existence of faster and more convenient alternatives listed above.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Количество обращений: 2
За последние 30 дней: 1

Подробная статистика