Детальная информация

Название: Высокопроизводительный масштабируемый облачный сервис для дедупликации данных в хранилище: выпускная квалификационная работа магистра: 09.04.04 - Программная инженерия ; 09.04.04_01 - Технология разработки и сопровождения качественного программного продукта
Авторы: Чжан Юйфэн
Научный руководитель: Никифоров Игорь Валерьевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2018
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Интернет; Вычислительные машины электронные персональные — Обеспечение сохранности данных; дедупликация
УДК: 004.738.5; 004.056; 004.627
Тип документа: Выпускная квалификационная работа магистра
Язык: Русский
Код специальности ФГОС: 09.04.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: http://doi.org/10.18720/SPBPU/2/v18-5981; http://elib.spbstu.ru/dl/2/rev/v18-5981-o.pdf; http://elib.spbstu.ru/dl/2/rev/v18-5981-r.pdf

Разрешенные действия: Прочитать Загрузить (3,5 Мб) Для чтения документа необходим Flash Player

Группа: Анонимные пользователи

Сеть: Локальная сеть ИБК СПбПУ

Аннотация

Выпускная квалификационная работа обсуждает использование технологии Hadoop для крупномасштабной дедупликации. При взрывном росте цифровой информации пространство, занимаемое данными, становится все больше и больше, и за последние 10 лет емкость системы хранения, предоставляемая многими отраслями, выросла с десятков ГБ до сотен Тб и даже с несколькими Пб. Благодаря экспоненциальному росту данных компании сталкиваются со все более быстрым временем резервного копирования и восстановления. Стоимость управления и сохранения данных, а также пространства центров обработки данных и потребления энергии также становится все более серьезной. Исследование показало, что система приложений экономит до 60% данных являются избыточными и все больше и больше с течением времени. Чтобы облегчить проблему роста пространства в системе хранения, уменьшите пространство данных, уменьшите стоимость и максимально используйте существующие ресурсы. С одной стороны, технология дедупликации может быть использована для оптимизации использования пространства памяти для устранения тех же файлов или блоков данных, распределенных в системе хранения. С другой стороны, использование дублированных данных Технология удаления может уменьшить количество данных, передаваемых в сети, тем самым снижая потребление энергии и сетевые затраты [2], и сэкономить много пропускной способности сети для репликации данных. В работе обсуждается, почему необходимо использовать Hadoop для большой обработки и хранения данных и реализовать алгоритм MapReduce. В сегодняшнюю эпоху больших данных традиционные технологии хранения данных имеют определенные ограничения. Практичность обработки Hadoop больших данных и алгоритмической полезности крупномасштабных данных делает преимущества крупномасштабной дедупликации данных очевидными.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
-> Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Все Прочитать Печать Загрузить

Статистика использования документа

stat Количество обращений: 256
За последние 30 дней: 10
Подробная статистика