Детальная информация

Полубенцев, Павел Константинович. Разработка подхода анализа данных, расположенных в архивной системе, построенной на базе OAIS [Электронный ресурс]: бакалаврская работа: 09.03.01 / П. К. Полубенцев; Санкт-Петербургский политехнический университет Петра Великого, Институт компьютерных наук и технологий ; науч. рук. И. В. Никифоров. — Электрон. текстовые дан. (1 файл : 0,99 МБ). — Санкт-Петербург, 2016. — Загл. с титул. экрана. — Свободный доступ из сети Интернет (чтение, печать, копирование). — Adobe Acrobat Reader 7.0. — <URL:http://elib.spbstu.ru/dl/2/v17-1132.pdf>. — <URL:http://doi.org/10.18720/SPBPU/2/v17-1132>.

Дата создания записи: 09.03.2017

Тематика: архивная система; разработка подхода анализа данных; структура Java-приложения

Коллекции: Выпускные квалификационные работы; Общая коллекция

Ссылки: DOI

Разрешенные действия: Прочитать Загрузить (1,0 Мб) Для чтения документа необходим Flash Player

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Бакалаврская работа посвящена разработке подхода к анализу данных, расположенных в архивной системе, построенной на стандарте OAIS. Дан обзор современным технологиям, таким как Apache Hadoop, Apache Spark, Apache Storm, которые позволяют оперировать с большими данными как в пакетном режиме, так и в режиме реального времени. Рассмотрены программные продукты, которые позволяют взаимодействовать с перечисленными технологиями и реализовывать современные алгоритмы обработки информации. В рамках работы разработано приложение на языке Java для анализа данных, хранящихся в архивной системе, построенной на основе стандарта OAIS. Написана программа на языке R для визуализации полученных результатов и проведения визуальной аналитики. Также был реализован пользовательский web-интерфейс для предоставления и доступа к сформированным данным конечному пользователю. Предложенный подход был протестирован и применен к различным данным.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
-> Интернет Все Прочитать Печать Загрузить

Оглавление

  • Содержание
  • Список рисунков
  • Сокращения
  • Реферат
  • Введение
  • 1. Обзор предметной области
    • 1.1. Системы для реализации распределённой обработки данных
      • 1.1.1. Проект Apache Hadoop
      • 1.1.2. Фреймворк Apache Spark
      • 1.1.3. Обработка в режиме реального времени с Apache Storm
    • 1.2 Рекомендация долговременного хранения данных OAIS
    • 1.3. Java XML Parsers API
      • 1.3.1 SAX
      • 1.3.2 StAX
      • 1.3.3 DOM
      • 1.3.4. Восстановление объектной модели из XML
    • 1.4 Структура анализируемого файла
    • 1.5. Язык R
    • 1.6.Выводы
  • 2. Подход анализа архивных данных
    • 2.1. Модель анализа данных
    • 2.2. Модуль разбора и обработки данных
    • 2.3. Используемые артифакты
    • 2.4. Визуализация результатов анализа
      • 2.4.1. Обобщенная схема подхода
      • 2.4.2. Пользовательский интерфейс
    • 2.5. Выводы
  • 3. Реализация
    • 3.1. Конфигурация Eclipse для работы с Hadoop
      • 3.1.2. Настройка пользовательских библиотек
      • 3.1.3. Описание пакетов и классов MapReduce
    • 3.2. Взаимодействие с HDFS
      • 3.2.1. Запись в файл и чтение из файла
      • 3.2.2. Копирование файлов в HDFS
      • 3.2.3. Удаление файлов в HDFS
      • 3.2.4.Копирование файлов из локальной FS в HDFS
    • 3.3. Реализация MapReduce
    • 3.4. Структура Java-приложения
    • 3.5. Язык R
  • 4. Результаты применения подхода
  • Заключение
  • Список литературы

Статистика использования документа

stat Количество обращений: 807
За последние 30 дней: 21
Подробная статистика