Детальная информация

Название: Визуализация и анализ данных с помощью языка R и пакетa Shiny: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии»
Авторы: Свидрова Ольга Сергеевна
Научный руководитель: Нестеров Сергей Александрович
Другие авторы: Магер Владимир Евстафьевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2021
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: язык R; базы данных; структурированные данные; интеллектуальный анализ данных; статистика; визуализация; кластеризация; data mining; временные ряды; поиск аномалий; STL-декомпозиция; прогнозирование временного ряда; среда RStudio; language R; databases; structured data; intelligent data analysis; statistics; visualization; clustering; time series; anomaly search; STL-decomposition; time series forecasting; RStudio
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.02
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-4723
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\14874

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Объект исследования: база данных, которая содержит информацию о заболеваниях и смертях от COVID-19 в России в каждой области. Предмет исследования: поведенческий анализ заболевания COVID-19 и визуализация данных. Цель дипломной работы ¬¬– рассмотреть способы анализа данных с помощью языка R, структурировать данные и преобразовать их в удобную для исследования форму. Структурировать и анализировать исходный набор данных, визуализировать результаты исследования и представить их в Web-приложении с помощью пакета Shiny и языка R. При выполнении работы были выполнены следующие этапы: • загрузка данных из внешнего источника (файла формата .xlsx); • анализ полученных данных; • обработка и структуризация данных; • визуализация исходных данных; • анализ временных рядов; • исследование полученных результатов. В результате выполнения была рассмотрена среда разработки RStudio и язык R, произведена работа с пакетами ggplot2/dygraphs, проведена обработка исходного набора данных, а также рассмотрена кластеризация на основе алгоритма k-средних, иерархическая кластеризация, анализ временных рядов, а именно тест Петтитта, метод локальной регрессии, прогнозирование временного ряда, поиск аномалий, STL декомпозиция временного ряда и визуализация полученных результатов с помощью средств языка R и пакета Shiny; изучено влияние на показатель заболеваемости таких факторов, как количество населения и географическое положение региона, уровень здравоохранения и качество медицины, а также зависимость показателей от дня недели.

Research object: a database that contains information on diseases and deaths from COVID-19 in Russia in each region. Research subject: behavioral analysis of COVID-19 disease and data visualization. The purpose of the thesis is to consider ways to analyze data using the R language, structure the data and transform it into a form that is convenient for research. Structure and analyze the original dataset, visualize research results and present them in a Web application using the Shiny package and the R language. The influence on the incidence rate of such factors as the number of the population and the geographical location of the region, the level of health care and the quality of medicine, as well as the dependence of the indicators on the day of the week is considered. When performing the work, the following steps were performed: • loading data from an external source (.xlsx file); • analysis of the received data; • data processing and structuring; • visualization of initial data; • time series analysis; • study of the results obtained. As a result of the execution, the RStudio development environment and the R language were considered, work with the ggplot2/dygraphs packages was performed, the initial data set was processed, and clustering based on the k-means algorithm, hierarchical clustering, time series analysis, namely the Pettitt test, the method local regression, time series forecasting, anomaly search, STL time series decomposition and visualization of the results obtained using the R language and the Shiny package.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 18
За последние 30 дней: 1
Подробная статистика