Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Бакалаврская работа посвящена разработке подхода к анализу данных, расположенных в архивной системе, построенной на стандарте OAIS. Дан обзор современным технологиям, таким как Apache Hadoop, Apache Spark, Apache Storm, которые позволяют оперировать с большими данными как в пакетном режиме, так и в режиме реального времени. Рассмотрены программные продукты, которые позволяют взаимодействовать с перечисленными технологиями и реализовывать современные алгоритмы обработки информации. В рамках работы разработано приложение на языке Java для анализа данных, хранящихся в архивной системе, построенной на основе стандарта OAIS. Написана программа на языке R для визуализации полученных результатов и проведения визуальной аналитики. Также был реализован пользовательский web-интерфейс для предоставления и доступа к сформированным данным конечному пользователю. Предложенный подход был протестирован и применен к различным данным.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Table of Contents
- Содержание
- Список рисунков
- Сокращения
- Реферат
- Введение
- 1. Обзор предметной области
- 1.1. Системы для реализации распределённой обработки данных
- 1.1.1. Проект Apache Hadoop
- 1.1.2. Фреймворк Apache Spark
- 1.1.3. Обработка в режиме реального времени с Apache Storm
- 1.2 Рекомендация долговременного хранения данных OAIS
- 1.3. Java XML Parsers API
- 1.3.1 SAX
- 1.3.2 StAX
- 1.3.3 DOM
- 1.3.4. Восстановление объектной модели из XML
- 1.4 Структура анализируемого файла
- 1.5. Язык R
- 1.6.Выводы
- 1.1. Системы для реализации распределённой обработки данных
- 2. Подход анализа архивных данных
- 2.1. Модель анализа данных
- 2.2. Модуль разбора и обработки данных
- 2.3. Используемые артифакты
- 2.4. Визуализация результатов анализа
- 2.4.1. Обобщенная схема подхода
- 2.4.2. Пользовательский интерфейс
- 2.5. Выводы
- 3. Реализация
- 3.1. Конфигурация Eclipse для работы с Hadoop
- 3.1.2. Настройка пользовательских библиотек
- 3.1.3. Описание пакетов и классов MapReduce
- 3.2. Взаимодействие с HDFS
- 3.2.1. Запись в файл и чтение из файла
- 3.2.2. Копирование файлов в HDFS
- 3.2.3. Удаление файлов в HDFS
- 3.2.4.Копирование файлов из локальной FS в HDFS
- 3.3. Реализация MapReduce
- 3.4. Структура Java-приложения
- 3.5. Язык R
- 3.1. Конфигурация Eclipse для работы с Hadoop
- 4. Результаты применения подхода
- Заключение
- Список литературы
Usage statistics
Access count: 910
Last 30 days: 0 Detailed usage statistics |