Details
Title | Интеллектуальный анализ данных о сахарном диабете средствами языка R: выпускная квалификационная работа магистра: направление 09.04.02 «Информационные системы и технологии» ; образовательная программа 09.04.02_04 «Системный анализ и оптимизация информационных систем и технологий» |
---|---|
Creators | Сажнова Виктория Александровна |
Scientific adviser | Нестеров Сергей Александрович |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий |
Imprint | Санкт-Петербург, 2023 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | интеллектуальный анализ данных ; классификация ; балансировка класса ; метод smote ; сахарный диабет ; язык r ; data mining ; classification ; class balancing ; smote method ; diabetes ; r language |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 09.04.02 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2023/vr/vr23-3888 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Record key | ru\spstu\vkr\25018 |
Record create date | 8/3/2023 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Цель работы – применение методов интеллектуального анализа с помощью средств языка R для определения наличия сахарного диабета по симптомам и ответам об образе жизни пациента. Задачи, которые решаются в ходе исследования: 1. первичная обработка исходных наборов данных; 2. статистический и корреляционный анализ наборов данных; 3. балансировка классов набора данных об образе жизни пациентов; 4. построение моделей классификации для выявления наличия сахарного диабета для набора с симптомами и для несбалансированного и двух сбалансированных наборов об образе жизни пациентов; 5. сравнение результатов классификации, оценка точности моделей; 6. создание прототипа веб-приложения для диагностики сахарного диабета в виде анкетирования на основе вопросов исследуемых наборов данных. В работе представлены результаты классификации исходных наборов данных на базе следующих алгоритмов: k ближайших соседей, деревьев решений, наивного алгоритма Байеса, логистической регрессии, случайного леса и XGBoost. Для повышения точности на наборе данных об образе жизни пациентов была проведена балансировка классов методами RUSE и SMOTE. Наилучшие результаты классификации показали модели на базе алгоритма XGBoost, на основе которых был создан прототип веб приложения с помощью пакета Shiny языка R для диагностирования сахарного диабета.
The purpose of the work is the application of data mining methods for detection diabetes by symptoms and answers about the patients lifestyle. Tasks that were solved during the study: 1. primary data processing; 2. statistical and correlation data analysis; 3. class balancing of patient’s lifestyle dataset; 4. building of the diabetes detection models for the symptom’s dataset and for the unbalanced and the two balanced patient’s lifestyle datasets. 5. comparison of the classification results, assessment of the models accuracy; 6. creation of a web application prototype for the diabetes detection, which is the questionnaire based on the questions of the studied data sets. In the work, there are the results of classification by the data mining models based on the following algorithms: k nearest neighbors, decision tree, naive Bayes, logistic regression, random forest and XGBoost algorithms. To improve the accuracy on the patient’s lifestyle dataset, the classes were balanced using the RUSE and SMOTE methods. Models based on the XGBoost algorithm showed the best results on the symptoms dataset and on the balanced dataset using the SMOTE method. Based on the best predictive models, a web application prototype was created for diabetes detection using package Shiny in R.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 7
Last 30 days: 0