Details

Title: Визуализация и анализ данных с помощью языка R и пакетa Shiny: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии»
Creators: Свидрова Ольга Сергеевна
Scientific adviser: Нестеров Сергей Александрович
Other creators: Магер Владимир Евстафьевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2021
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: язык R; базы данных; структурированные данные; интеллектуальный анализ данных; статистика; визуализация; кластеризация; data mining; временные ряды; поиск аномалий; STL-декомпозиция; прогнозирование временного ряда; среда RStudio; language R; databases; structured data; intelligent data analysis; statistics; visualization; clustering; time series; anomaly search; STL-decomposition; time series forecasting; RStudio
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 09.03.02
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-4723
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\14874

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Объект исследования: база данных, которая содержит информацию о заболеваниях и смертях от COVID-19 в России в каждой области. Предмет исследования: поведенческий анализ заболевания COVID-19 и визуализация данных. Цель дипломной работы ¬¬– рассмотреть способы анализа данных с помощью языка R, структурировать данные и преобразовать их в удобную для исследования форму. Структурировать и анализировать исходный набор данных, визуализировать результаты исследования и представить их в Web-приложении с помощью пакета Shiny и языка R. При выполнении работы были выполнены следующие этапы: • загрузка данных из внешнего источника (файла формата .xlsx); • анализ полученных данных; • обработка и структуризация данных; • визуализация исходных данных; • анализ временных рядов; • исследование полученных результатов. В результате выполнения была рассмотрена среда разработки RStudio и язык R, произведена работа с пакетами ggplot2/dygraphs, проведена обработка исходного набора данных, а также рассмотрена кластеризация на основе алгоритма k-средних, иерархическая кластеризация, анализ временных рядов, а именно тест Петтитта, метод локальной регрессии, прогнозирование временного ряда, поиск аномалий, STL декомпозиция временного ряда и визуализация полученных результатов с помощью средств языка R и пакета Shiny; изучено влияние на показатель заболеваемости таких факторов, как количество населения и географическое положение региона, уровень здравоохранения и качество медицины, а также зависимость показателей от дня недели.

Research object: a database that contains information on diseases and deaths from COVID-19 in Russia in each region. Research subject: behavioral analysis of COVID-19 disease and data visualization. The purpose of the thesis is to consider ways to analyze data using the R language, structure the data and transform it into a form that is convenient for research. Structure and analyze the original dataset, visualize research results and present them in a Web application using the Shiny package and the R language. The influence on the incidence rate of such factors as the number of the population and the geographical location of the region, the level of health care and the quality of medicine, as well as the dependence of the indicators on the day of the week is considered. When performing the work, the following steps were performed: • loading data from an external source (.xlsx file); • analysis of the received data; • data processing and structuring; • visualization of initial data; • time series analysis; • study of the results obtained. As a result of the execution, the RStudio development environment and the R language were considered, work with the ggplot2/dygraphs packages was performed, the initial data set was processed, and clustering based on the k-means algorithm, hierarchical clustering, time series analysis, namely the Pettitt test, the method local regression, time series forecasting, anomaly search, STL time series decomposition and visualization of the results obtained using the R language and the Shiny package.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 17
Last 30 days: 0
Detailed usage statistics