Details

Title Высокопроизводительный масштабируемый облачный сервис для дедупликации данных в хранилище: выпускная квалификационная работа магистра: 09.04.04 - Программная инженерия ; 09.04.04_01 - Технология разработки и сопровождения качественного программного продукта
Creators Чжан Юйфэн
Scientific adviser Никифоров Игорь Валерьевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint Санкт-Петербург, 2018
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects Интернет ; Вычислительные машины электронные персональные — Обеспечение сохранности данных ; дедупликация
UDC 004.738.5 ; 004.056 ; 004.627
Document type Master graduation qualification work
File type Other
Language Russian
Level of education Master
Speciality code (FGOS) 09.04.04
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
Links Отзыв руководителя ; Рецензия
DOI 10.18720/SPBPU/2/v18-5981
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key RU\SPSTU\edoc\58474
Record create date 11/29/2018

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

Выпускная квалификационная работа обсуждает использование технологии Hadoop для крупномасштабной дедупликации. При взрывном росте цифровой информации пространство, занимаемое данными, становится все больше и больше, и за последние 10 лет емкость системы хранения, предоставляемая многими отраслями, выросла с десятков ГБ до сотен Тб и даже с несколькими Пб. Благодаря экспоненциальному росту данных компании сталкиваются со все более быстрым временем резервного копирования и восстановления. Стоимость управления и сохранения данных, а также пространства центров обработки данных и потребления энергии также становится все более серьезной. Исследование показало, что система приложений экономит до 60% данных являются избыточными и все больше и больше с течением времени. Чтобы облегчить проблему роста пространства в системе хранения, уменьшите пространство данных, уменьшите стоимость и максимально используйте существующие ресурсы. С одной стороны, технология дедупликации может быть использована для оптимизации использования пространства памяти для устранения тех же файлов или блоков данных, распределенных в системе хранения. С другой стороны, использование дублированных данных Технология удаления может уменьшить количество данных, передаваемых в сети, тем самым снижая потребление энергии и сетевые затраты [2], и сэкономить много пропускной способности сети для репликации данных. В работе обсуждается, почему необходимо использовать Hadoop для большой обработки и хранения данных и реализовать алгоритм MapReduce. В сегодняшнюю эпоху больших данных традиционные технологии хранения данных имеют определенные ограничения. Практичность обработки Hadoop больших данных и алгоритмической полезности крупномасштабных данных делает преимущества крупномасштабной дедупликации данных очевидными.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 286 
Last 30 days: 0

Detailed usage statistics