Детальная информация

Название: Интеллектуальный анализ данных о сахарном диабете средствами языка R: выпускная квалификационная работа магистра: направление 09.04.02 «Информационные системы и технологии» ; образовательная программа 09.04.02_04 «Системный анализ и оптимизация информационных систем и технологий»
Авторы: Сажнова Виктория Александровна
Научный руководитель: Нестеров Сергей Александрович
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2023
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: интеллектуальный анализ данных; классификация; балансировка класса; метод smote; сахарный диабет; язык r; data mining; classification; class balancing; smote method; diabetes; r language
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.02
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2023/vr/vr23-3888
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\25018

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Цель работы – применение методов интеллектуального анализа с помощью средств языка R для определения наличия сахарного диабета по симптомам и ответам об образе жизни пациента. Задачи, которые решаются в ходе исследования: 1. первичная обработка исходных наборов данных; 2. статистический и корреляционный анализ наборов данных; 3. балансировка классов набора данных об образе жизни пациентов; 4. построение моделей классификации для выявления наличия сахарного диабета для набора с симптомами и для несбалансированного и двух сбалансированных наборов об образе жизни пациентов; 5. сравнение результатов классификации, оценка точности моделей; 6. создание прототипа веб-приложения для диагностики сахарного диабета в виде анкетирования на основе вопросов исследуемых наборов данных. В работе представлены результаты классификации исходных наборов данных на базе следующих алгоритмов: k ближайших соседей, деревьев решений, наивного алгоритма Байеса, логистической регрессии, случайного леса и XGBoost. Для повышения точности на наборе данных об образе жизни пациентов была проведена балансировка классов методами RUSE и SMOTE. Наилучшие результаты классификации показали модели на базе алгоритма XGBoost, на основе которых был создан прототип веб приложения с помощью пакета Shiny языка R для диагностирования сахарного диабета.

The purpose of the work is the application of data mining methods for detection diabetes by symptoms and answers about the patients lifestyle. Tasks that were solved during the study: 1. primary data processing; 2. statistical and correlation data analysis; 3. class balancing of patient’s lifestyle dataset; 4. building of the diabetes detection models for the symptom’s dataset and for the unbalanced and the two balanced patient’s lifestyle datasets. 5. comparison of the classification results, assessment of the models accuracy; 6. creation of a web application prototype for the diabetes detection, which is the questionnaire based on the questions of the studied data sets. In the work, there are the results of classification by the data mining models based on the following algorithms: k nearest neighbors, decision tree, naive Bayes, logistic regression, random forest and XGBoost algorithms. To improve the accuracy on the patient’s lifestyle dataset, the classes were balanced using the RUSE and SMOTE methods. Models based on the XGBoost algorithm showed the best results on the symptoms dataset and on the balanced dataset using the SMOTE method. Based on the best predictive models, a web application prototype was created for diabetes detection using package Shiny in R.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 3
За последние 30 дней: 0
Подробная статистика