Details

Title Интеллектуальный анализ данных о сахарном диабете средствами языка R: выпускная квалификационная работа магистра: направление 09.04.02 «Информационные системы и технологии» ; образовательная программа 09.04.02_04 «Системный анализ и оптимизация информационных систем и технологий»
Creators Сажнова Виктория Александровна
Scientific adviser Нестеров Сергей Александрович
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint Санкт-Петербург, 2023
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects интеллектуальный анализ данных ; классификация ; балансировка класса ; метод smote ; сахарный диабет ; язык r ; data mining ; classification ; class balancing ; smote method ; diabetes ; r language
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 09.04.02
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2023/vr/vr23-3888
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key ru\spstu\vkr\25018
Record create date 8/3/2023

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

Цель работы – применение методов интеллектуального анализа с помощью средств языка R для определения наличия сахарного диабета по симптомам и ответам об образе жизни пациента. Задачи, которые решаются в ходе исследования: 1. первичная обработка исходных наборов данных; 2. статистический и корреляционный анализ наборов данных; 3. балансировка классов набора данных об образе жизни пациентов; 4. построение моделей классификации для выявления наличия сахарного диабета для набора с симптомами и для несбалансированного и двух сбалансированных наборов об образе жизни пациентов; 5. сравнение результатов классификации, оценка точности моделей; 6. создание прототипа веб-приложения для диагностики сахарного диабета в виде анкетирования на основе вопросов исследуемых наборов данных. В работе представлены результаты классификации исходных наборов данных на базе следующих алгоритмов: k ближайших соседей, деревьев решений, наивного алгоритма Байеса, логистической регрессии, случайного леса и XGBoost. Для повышения точности на наборе данных об образе жизни пациентов была проведена балансировка классов методами RUSE и SMOTE. Наилучшие результаты классификации показали модели на базе алгоритма XGBoost, на основе которых был создан прототип веб приложения с помощью пакета Shiny языка R для диагностирования сахарного диабета.

The purpose of the work is the application of data mining methods for detection diabetes by symptoms and answers about the patients lifestyle. Tasks that were solved during the study: 1. primary data processing; 2. statistical and correlation data analysis; 3. class balancing of patient’s lifestyle dataset; 4. building of the diabetes detection models for the symptom’s dataset and for the unbalanced and the two balanced patient’s lifestyle datasets. 5. comparison of the classification results, assessment of the models accuracy; 6. creation of a web application prototype for the diabetes detection, which is the questionnaire based on the questions of the studied data sets. In the work, there are the results of classification by the data mining models based on the following algorithms: k nearest neighbors, decision tree, naive Bayes, logistic regression, random forest and XGBoost algorithms. To improve the accuracy on the patient’s lifestyle dataset, the classes were balanced using the RUSE and SMOTE methods. Models based on the XGBoost algorithm showed the best results on the symptoms dataset and on the balanced dataset using the SMOTE method. Based on the best predictive models, a web application prototype was created for diabetes detection using package Shiny in R.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 7 
Last 30 days: 0

Detailed usage statistics