Предсказание сахарного диабета I типа на основе медицинских показателей: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»

Бендрышев, Сергей Александрович

Details

Title	Предсказание сахарного диабета I типа на основе медицинских показателей: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators	Бендрышев Сергей Александрович
Scientific adviser	Селин Иван Андреевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2025
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	сахарный диабет 1 типа ; машинное обучение ; предсказание заболеваний ; медицинские показатели ; классификация ; глюкоза ; hbacc ; python ; streamlit ; pandas ; анализ данных ; diabetes ; machine learning ; disease prediction ; medical indicators ; classification ; glucose ; hba1c ; analyzing data
Document type	Bachelor graduation qualification work
File type	PDF
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	09.03.04
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2025/vr/vr25-936
Rights	Доступ по паролю из сети Интернет (чтение)
Additionally	New arrival
Record key	ru\spstu\vkr\35755
Record create date	7/30/2025

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Данная работа посвящена разработке модели машинного обучения для раннего прогнозирования сахарного диабета 1 типа (СД1) на основе клинических и лабораторных данных. Актуальность исследования обусловлена ростом заболеваемости СД1, тяжестью его осложнений и необходимостью совершенствования методов диагностики. Задачи, которые решались в ходе исследования: 1. Анализ современных методов машинного обучения для классификации медицинских данных. 2. Сбор и предварительная обработка набора данных, включающего биохимические, антропометрические и генетические показатели. 3. Сравнение эффективности алгоритмов (логистическая регрессия, SVM, градиентный бустинг, случайный лес) в задаче предсказания СД1. 4. Разработка программного интерфейса для практического применения модели. 5. Оценка качества модели с использованием метрик (Accuracy, Precision, Recall, F1-score, ROC-AUC). Методология и инструменты: Датасет: Pima Indians Diabetes Database (768 пациентов, 8 признаков, включая уровень глюкозы, индекс массы тела, возраст). Технологии: Язык программирования: Python (библиотеки Pandas, Scikit-learn, TensorFlow). Визуализация: Matplotlib, Seaborn. Генерация синтетических данных: CTGAN, GMM. Развертывание: Streamlit (интерактивный веб-интерфейс). Методы: • Предобработка данных (нормализация, импутация пропусков). • Обучение моделей с оптимизацией гиперпараметров. Ансамблевые методы (градиентный бустинг, случайный лес). Результаты: Наивысшую точность (89%) продемонстрировала модель градиентного бустинга. Ключевые предикторы СД1: уровень глюкозы (>126 мг/дл), HbA1c (>6.5%), ИМТ (>30). Разработан прототип веб-приложения для прогнозирования риска СД1 на основе введенных пользователем данных. Практическая значимость: Система может быть использована для раннего выявления групп риска сахарного диабета 1 типа. Решение снижает нагрузку на врачей за счет автоматизации первичной диагностики.

This work is devoted to the development of a model machine learning for early prediction of diabetes mellitus (DM1) based on clinical and laboratory data. The relevance of the study is due to the increasing incidence of DM1, the severity of its complications and the need improvement of diagnostic methods. Objectives, which were solved in the course of research: 1. Analyzing the state-of-the-art machine learning techniques for medical data classification. 2. Collecting and pre-processing the dataset including biochemical, anthropometric and genetic parameters. 3. Comparing the performance of algorithms (logistic regression, SVM, gradient bousting, random forest) in the task of predicting SD1. 4. Development of a software interface for practical application of the model. 5. Evaluation of model quality using metrics (Accuracy, Precision, Recall, F1-score, ROC-AUC). Methodology and tools: Dataset: Pima Indians Diabetes Database (768 patients, 8 traits including glucose levels, BMI, age). Technologies: Programming language: Python (Pandas, Scikit-learn, TensorFlow libraries). Visualization: Matplotlib, Seaborn. Synthetic data generation: CTGAN, GMM. Deployment: Streamlit (interactive web interface). Methods: • Data preprocessing (normalization, skip imputation) • Model training with hyperparameter optimization. Ensemble methods (gradient bousting, random forest). Results: The gradient boosting model showed the highest accuracy (89%). Key predictors of DM1: glucose level (>126 mg/dL), HbA1c (>6.5%), BMI (>30).A prototype web application for predicting DM1 risk based on user-entered data was developed. Practical significance: The system can be used for early identification of risk groups for type 1 diabetes mellitus. The solution reduces the burden on physicians by automating primary diagnostics.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

ebd69f755656f7c9fbad4247f92ae0606f499943e036aed1925dd168b43aeaec.pdf
41eff8c5868a5156deec96065cc98d13a0cd81b10481ca0183c2a3af0548581d.pdf
- ВВЕДЕНИЕ
  - Признаки сахарного диабета I типа
  - Комплексы анализов для выявления диабета I типа
  - Постановка задачи классификации
    - Метод опорных векторов
    - Деревья решений
    - Градиентный бустинг
    - Алгоритм случайного леса
    - Логистическая регрессия
  - Метрики классификации
    - Accuracy
    - Precision
    - Recall
    - F-score
- ГЛАВА 1. ПОСТАНОВКА ЗАДАЧИ И ИССЛЕДОВАНИЕ МЕТОДОВ КЛАССИФИКАЦИИ
- ГЛАВА 2. ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ
- ГЛАВА 3. ИССЛЕДОВАНИЕ СУЩЕСТВУЮЩИХ МЕТОДОВ ГЕНЕРИРОВАНИЯ СИНТЕТИЧЕСКИХ ДАННЫХ
  - Статистические методы
  - Методы на основе машинного обучения
- ГЛАВА 4. ОПИСАНИЕ НАБОРА ДАННЫХ ДЛЯ ОБУЧЕНИЯ
  - Характеристики выборки
  - Общие характеристики датасета
- ГЛАВА 5. РЕАЛИЗАЦИЯ
  - Общее назначение приложения
    - Основные компоненты приложения
    - Ключевые особенности
    - Поток работы
    - Архитектура приложения
  - Реализованные методы
    - 1. Функции обработки данных
    - 2. Генерация синтетических данных
    - 3. Анализ влияния данных
    - 4. Загрузка данных
  - Технические требования
- ГЛАВА 6. РЕЗУЛЬТАТЫ
  - Постановка эксперимента
  - Обучение моделей с различными гиперпараметрами
  - Анализ влияния синтетических данных на работу моделей
  - Итог по анализу влияния синтетических данных
  - ЗАКЛЮЧЕНИЕ
01b6fb11322a5fc5559d3786301f7b3627701b132629b903274f78003bea187f.pdf
- ГЛАВА 6. РЕЗУЛЬТАТЫ
  - ПРИЛОЖЕНИЕ
  - ЛИТЕРАТУРА

Access count: 0
Last 30 days: 0

Detailed usage statistics