Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Объект исследования: база данных, которая содержит информацию о заболеваниях и смертях от COVID-19 в России в каждой области. Предмет исследования: поведенческий анализ заболевания COVID-19 и визуализация данных. Цель дипломной работы ¬¬– рассмотреть способы анализа данных с помощью языка R, структурировать данные и преобразовать их в удобную для исследования форму. Структурировать и анализировать исходный набор данных, визуализировать результаты исследования и представить их в Web-приложении с помощью пакета Shiny и языка R. При выполнении работы были выполнены следующие этапы: • загрузка данных из внешнего источника (файла формата .xlsx); • анализ полученных данных; • обработка и структуризация данных; • визуализация исходных данных; • анализ временных рядов; • исследование полученных результатов. В результате выполнения была рассмотрена среда разработки RStudio и язык R, произведена работа с пакетами ggplot2/dygraphs, проведена обработка исходного набора данных, а также рассмотрена кластеризация на основе алгоритма k-средних, иерархическая кластеризация, анализ временных рядов, а именно тест Петтитта, метод локальной регрессии, прогнозирование временного ряда, поиск аномалий, STL декомпозиция временного ряда и визуализация полученных результатов с помощью средств языка R и пакета Shiny; изучено влияние на показатель заболеваемости таких факторов, как количество населения и географическое положение региона, уровень здравоохранения и качество медицины, а также зависимость показателей от дня недели.
Research object: a database that contains information on diseases and deaths from COVID-19 in Russia in each region. Research subject: behavioral analysis of COVID-19 disease and data visualization. The purpose of the thesis is to consider ways to analyze data using the R language, structure the data and transform it into a form that is convenient for research. Structure and analyze the original dataset, visualize research results and present them in a Web application using the Shiny package and the R language. The influence on the incidence rate of such factors as the number of the population and the geographical location of the region, the level of health care and the quality of medicine, as well as the dependence of the indicators on the day of the week is considered. When performing the work, the following steps were performed: • loading data from an external source (.xlsx file); • analysis of the received data; • data processing and structuring; • visualization of initial data; • time series analysis; • study of the results obtained. As a result of the execution, the RStudio development environment and the R language were considered, work with the ggplot2/dygraphs packages was performed, the initial data set was processed, and clustering based on the k-means algorithm, hierarchical clustering, time series analysis, namely the Pettitt test, the method local regression, time series forecasting, anomaly search, STL time series decomposition and visualization of the results obtained using the R language and the Shiny package.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Usage statistics
Access count: 17
Last 30 days: 0 Detailed usage statistics |