Details
Title | Исследование и экспериментальный анализ средств работы с большими данными в веб-приложениях: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии» |
---|---|
Creators | Фролов Георгий Оскарович |
Scientific adviser | Пархоменко Владимир Андреевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2024 |
Collection | Выпускные квалификационные работы; Общая коллекция |
Subjects | большие данные; apache spark; hadoop; пакетные вычисления; потоковые вычисления; big data; batch computing; stream computing |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 09.03.03 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2024/vr/vr24-2882 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Record key | ru\spstu\vkr\30345 |
Record create date | 7/11/2024 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Цель работы заключается в выборе, и последующем анализе архитектурных особенностей средств работы с большими данными, а также оценка временной эффективности средств работы с большими данными. В рамках работы были выбраны наиболее популярные средства пакетной и потоковой обработки данных. Были сравнены их архитектурные особенности и подход к формированию и исполнению задач. После чего было проведено экспериментальное сравнение временной эффективности выполнения ими потоковой и пакетной обработки данных. В рамках потоковой обработки данных сравнивались Apache Flink и Spark Streaming. Оба продемонстрировали достойные результаты, и оба могут считаться актуальными инструментами для потоковой обработки данных. Тем не менее Apache Flink продемонстрировал более стабильную и значительно меньшую абсолютную задержку, нежели Spark Streaming. В рамках пакетной обработки данных сравнивались фреймворки Spark, Hive on Tez и Hadoop Map Reduce. Был сделан вывод, что Spark на сегодняшний день превосходит другие сравниваемые инструменты в отношении временной эффективности. Hive on Tez демонстрирует небольшое отставание по эффективности выполнения задач пакетной обработки данных по сравнению со Spark, и ввиду удобства использования HiveQL синтаксиса так признается эффективным и актуальным инструментом. Hadoop Map Reduce, напротив, демонстрирует достаточно слабые результаты и не рекомендуется к использованию ввиду существования более быстрых и удобных альтернатив, перечисленных выше.
The purpose of the work is to select and then analyze the architectural features of big data tools, as well as to evaluate the temporal efficiency of big data tools. Within the framework of the work the most popular means of batch and stream data processing were selected. Their architectural features and approach to task generation and execution were compared. After that, an experimental comparison of the temporal efficiency of their execution of streaming and batch data processing was conducted. Apache Flink and Spark Streaming were compared in terms of streaming data processing. Both demonstrated decent results, and both can be considered relevant tools for stream processing. However, Apache Flink demonstrated a more stable and significantly lower absolute latency than Spark Streaming. The Spark, Hive on Tez, and Hadoop Map Reduce frameworks were compared within the batch processing framework. It was concluded that Spark by far outperforms the other compared tools in terms of temporal efficiency. Hive on Tez shows a slight lag in the efficiency of batch processing tasks compared to Spark, and due to the ease of use of the HiveQL syntax is so recognized as an effective and relevant tool. Hadoop Map Reduce, on the contrary, demonstrates rather poor results and is not recommended for use due to the existence of faster and more convenient alternatives listed above.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 2
Last 30 days: 1