Details

Title Предсказание сахарного диабета I типа на основе медицинских показателей: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators Бендрышев Сергей Александрович
Scientific adviser Селин Иван Андреевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects сахарный диабет 1 типа ; машинное обучение ; предсказание заболеваний ; медицинские показатели ; классификация ; глюкоза ; hbacc ; python ; streamlit ; pandas ; анализ данных ; diabetes ; machine learning ; disease prediction ; medical indicators ; classification ; glucose ; hba1c ; analyzing data
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.04
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-936
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\35755
Record create date 7/30/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Данная работа посвящена разработке модели машинного обучения для раннего прогнозирования сахарного диабета 1 типа (СД1) на основе клинических и лабораторных данных. Актуальность исследования обусловлена ростом заболеваемости СД1, тяжестью его осложнений и необходимостью совершенствования методов диагностики. Задачи, которые решались в ходе исследования: 1. Анализ современных методов машинного обучения для классификации медицинских данных. 2. Сбор и предварительная обработка набора данных, включающего биохимические, антропометрические и генетические показатели. 3. Сравнение эффективности алгоритмов (логистическая регрессия, SVM, градиентный бустинг, случайный лес) в задаче предсказания СД1. 4. Разработка программного интерфейса для практического применения модели. 5. Оценка качества модели с использованием метрик (Accuracy, Precision, Recall, F1-score, ROC-AUC). Методология и инструменты: Датасет: Pima Indians Diabetes Database (768 пациентов, 8 признаков, включая уровень глюкозы, индекс массы тела, возраст). Технологии: Язык программирования: Python (библиотеки Pandas, Scikit-learn, TensorFlow). Визуализация: Matplotlib, Seaborn. Генерация синтетических данных: CTGAN, GMM. Развертывание: Streamlit (интерактивный веб-интерфейс). Методы: • Предобработка данных (нормализация, импутация пропусков). • Обучение моделей с оптимизацией гиперпараметров. Ансамблевые методы (градиентный бустинг, случайный лес). Результаты: Наивысшую точность (89%) продемонстрировала модель градиентного бустинга. Ключевые предикторы СД1: уровень глюкозы (>126 мг/дл), HbA1c (>6.5%), ИМТ (>30). Разработан прототип веб-приложения для прогнозирования риска СД1 на основе введенных пользователем данных. Практическая значимость: Система может быть использована для раннего выявления групп риска сахарного диабета 1 типа. Решение снижает нагрузку на врачей за счет автоматизации первичной диагностики.

This work is devoted to the development of a model machine learning for early prediction of diabetes mellitus (DM1) based on clinical and laboratory data. The relevance of the study is due to the increasing incidence of DM1, the severity of its complications and the need improvement of diagnostic methods. Objectives, which were solved  in the course of research: 1. Analyzing the state-of-the-art machine learning techniques for medical data classification. 2. Collecting and pre-processing the dataset including biochemical, anthropometric and genetic parameters. 3. Comparing the performance of algorithms (logistic regression, SVM, gradient bousting, random forest) in the task of predicting SD1. 4. Development of a software interface for practical application of the model. 5. Evaluation of model quality using metrics (Accuracy, Precision, Recall, F1-score, ROC-AUC). Methodology and tools: Dataset: Pima Indians Diabetes Database (768 patients, 8 traits including glucose levels, BMI, age). Technologies: Programming language: Python (Pandas, Scikit-learn, TensorFlow libraries). Visualization: Matplotlib, Seaborn. Synthetic data generation: CTGAN, GMM. Deployment: Streamlit (interactive web interface). Methods: • Data preprocessing (normalization, skip imputation) • Model training with hyperparameter optimization. Ensemble methods (gradient bousting, random forest). Results: The gradient boosting model showed the highest accuracy (89%). Key predictors of DM1: glucose level (>126 mg/dL), HbA1c (>6.5%), BMI (>30).A prototype web application for predicting DM1 risk based on user-entered data was developed. Practical significance: The system can be used for early identification of risk groups for type 1 diabetes mellitus. The solution reduces the burden on physicians by automating primary diagnostics.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous
  • ebd69f755656f7c9fbad4247f92ae0606f499943e036aed1925dd168b43aeaec.pdf
  • 41eff8c5868a5156deec96065cc98d13a0cd81b10481ca0183c2a3af0548581d.pdf
    • ВВЕДЕНИЕ
      • Признаки сахарного диабета I типа
      • Комплексы анализов для выявления диабета I типа
      • Постановка задачи классификации
        • Метод опорных векторов
        • Деревья решений
        • Градиентный бустинг
        • Алгоритм случайного леса
        • Логистическая регрессия
      • Метрики классификации
        • Accuracy
        • Precision
        • Recall
        • F-score
    • ГЛАВА 1. ПОСТАНОВКА ЗАДАЧИ И ИССЛЕДОВАНИЕ МЕТОДОВ КЛАССИФИКАЦИИ 
    • ГЛАВА 2. ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ
    • ГЛАВА 3. ИССЛЕДОВАНИЕ СУЩЕСТВУЮЩИХ МЕТОДОВ ГЕНЕРИРОВАНИЯ СИНТЕТИЧЕСКИХ ДАННЫХ
      • Статистические методы
      • Методы на основе машинного обучения
    • ГЛАВА 4. ОПИСАНИЕ НАБОРА ДАННЫХ ДЛЯ ОБУЧЕНИЯ
      • Характеристики выборки
      • Общие характеристики датасета
    • ГЛАВА 5. РЕАЛИЗАЦИЯ
      • Общее назначение приложения
        • Основные компоненты приложения
        • Ключевые особенности
        • Поток работы
        • Архитектура приложения
      • Реализованные методы
        • 1. Функции обработки данных
        • 2. Генерация синтетических данных
        • 3. Анализ влияния данных
        • 4. Загрузка данных
      • Технические требования
    • ГЛАВА 6. РЕЗУЛЬТАТЫ
      • Постановка эксперимента
      • Обучение моделей с различными гиперпараметрами
      • Анализ влияния синтетических данных на работу моделей
      • Итог по анализу влияния синтетических данных
      • ЗАКЛЮЧЕНИЕ
  • 01b6fb11322a5fc5559d3786301f7b3627701b132629b903274f78003bea187f.pdf
    • ГЛАВА 6. РЕЗУЛЬТАТЫ
      • ПРИЛОЖЕНИЕ
      • ЛИТЕРАТУРА

Access count: 0 
Last 30 days: 0

Detailed usage statistics