Details

Title: Разработка подхода анализа данных, расположенных в архивной системе, построенной на базе OAIS: бакалаврская работа: 09.03.01
Creators: Полубенцев Павел Константинович
Scientific adviser: Никифоров Игорь Валерьевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2016
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: архивная система; разработка подхода анализа данных; структура Java-приложения
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 09.03.01
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/2/v17-1132
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: RU\SPSTU\edoc\37307

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Бакалаврская работа посвящена разработке подхода к анализу данных, расположенных в архивной системе, построенной на стандарте OAIS. Дан обзор современным технологиям, таким как Apache Hadoop, Apache Spark, Apache Storm, которые позволяют оперировать с большими данными как в пакетном режиме, так и в режиме реального времени. Рассмотрены программные продукты, которые позволяют взаимодействовать с перечисленными технологиями и реализовывать современные алгоритмы обработки информации. В рамках работы разработано приложение на языке Java для анализа данных, хранящихся в архивной системе, построенной на основе стандарта OAIS. Написана программа на языке R для визуализации полученных результатов и проведения визуальной аналитики. Также был реализован пользовательский web-интерфейс для предоставления и доступа к сформированным данным конечному пользователю. Предложенный подход был протестирован и применен к различным данным.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Table of Contents

  • Содержание
  • Список рисунков
  • Сокращения
  • Реферат
  • Введение
  • 1. Обзор предметной области
    • 1.1. Системы для реализации распределённой обработки данных
      • 1.1.1. Проект Apache Hadoop
      • 1.1.2. Фреймворк Apache Spark
      • 1.1.3. Обработка в режиме реального времени с Apache Storm
    • 1.2 Рекомендация долговременного хранения данных OAIS
    • 1.3. Java XML Parsers API
      • 1.3.1 SAX
      • 1.3.2 StAX
      • 1.3.3 DOM
      • 1.3.4. Восстановление объектной модели из XML
    • 1.4 Структура анализируемого файла
    • 1.5. Язык R
    • 1.6.Выводы
  • 2. Подход анализа архивных данных
    • 2.1. Модель анализа данных
    • 2.2. Модуль разбора и обработки данных
    • 2.3. Используемые артифакты
    • 2.4. Визуализация результатов анализа
      • 2.4.1. Обобщенная схема подхода
      • 2.4.2. Пользовательский интерфейс
    • 2.5. Выводы
  • 3. Реализация
    • 3.1. Конфигурация Eclipse для работы с Hadoop
      • 3.1.2. Настройка пользовательских библиотек
      • 3.1.3. Описание пакетов и классов MapReduce
    • 3.2. Взаимодействие с HDFS
      • 3.2.1. Запись в файл и чтение из файла
      • 3.2.2. Копирование файлов в HDFS
      • 3.2.3. Удаление файлов в HDFS
      • 3.2.4.Копирование файлов из локальной FS в HDFS
    • 3.3. Реализация MapReduce
    • 3.4. Структура Java-приложения
    • 3.5. Язык R
  • 4. Результаты применения подхода
  • Заключение
  • Список литературы

Usage statistics

stat Access count: 910
Last 30 days: 0
Detailed usage statistics