Details
Title | Предсказание сахарного диабета I типа на основе медицинских показателей: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта» |
---|---|
Creators | Бендрышев Сергей Александрович |
Scientific adviser | Селин Иван Андреевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | сахарный диабет 1 типа ; машинное обучение ; предсказание заболеваний ; медицинские показатели ; классификация ; глюкоза ; hbacc ; python ; streamlit ; pandas ; анализ данных ; diabetes ; machine learning ; disease prediction ; medical indicators ; classification ; glucose ; hba1c ; analyzing data |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 09.03.04 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-936 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Additionally | New arrival |
Record key | ru\spstu\vkr\35755 |
Record create date | 7/30/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Данная работа посвящена разработке модели машинного обучения для раннего прогнозирования сахарного диабета 1 типа (СД1) на основе клинических и лабораторных данных. Актуальность исследования обусловлена ростом заболеваемости СД1, тяжестью его осложнений и необходимостью совершенствования методов диагностики. Задачи, которые решались в ходе исследования: 1. Анализ современных методов машинного обучения для классификации медицинских данных. 2. Сбор и предварительная обработка набора данных, включающего биохимические, антропометрические и генетические показатели. 3. Сравнение эффективности алгоритмов (логистическая регрессия, SVM, градиентный бустинг, случайный лес) в задаче предсказания СД1. 4. Разработка программного интерфейса для практического применения модели. 5. Оценка качества модели с использованием метрик (Accuracy, Precision, Recall, F1-score, ROC-AUC). Методология и инструменты: Датасет: Pima Indians Diabetes Database (768 пациентов, 8 признаков, включая уровень глюкозы, индекс массы тела, возраст). Технологии: Язык программирования: Python (библиотеки Pandas, Scikit-learn, TensorFlow). Визуализация: Matplotlib, Seaborn. Генерация синтетических данных: CTGAN, GMM. Развертывание: Streamlit (интерактивный веб-интерфейс). Методы: • Предобработка данных (нормализация, импутация пропусков). • Обучение моделей с оптимизацией гиперпараметров. Ансамблевые методы (градиентный бустинг, случайный лес). Результаты: Наивысшую точность (89%) продемонстрировала модель градиентного бустинга. Ключевые предикторы СД1: уровень глюкозы (>126 мг/дл), HbA1c (>6.5%), ИМТ (>30). Разработан прототип веб-приложения для прогнозирования риска СД1 на основе введенных пользователем данных. Практическая значимость: Система может быть использована для раннего выявления групп риска сахарного диабета 1 типа. Решение снижает нагрузку на врачей за счет автоматизации первичной диагностики.
This work is devoted to the development of a model machine learning for early prediction of diabetes mellitus (DM1) based on clinical and laboratory data. The relevance of the study is due to the increasing incidence of DM1, the severity of its complications and the need improvement of diagnostic methods. Objectives, which were solved in the course of research: 1. Analyzing the state-of-the-art machine learning techniques for medical data classification. 2. Collecting and pre-processing the dataset including biochemical, anthropometric and genetic parameters. 3. Comparing the performance of algorithms (logistic regression, SVM, gradient bousting, random forest) in the task of predicting SD1. 4. Development of a software interface for practical application of the model. 5. Evaluation of model quality using metrics (Accuracy, Precision, Recall, F1-score, ROC-AUC). Methodology and tools: Dataset: Pima Indians Diabetes Database (768 patients, 8 traits including glucose levels, BMI, age). Technologies: Programming language: Python (Pandas, Scikit-learn, TensorFlow libraries). Visualization: Matplotlib, Seaborn. Synthetic data generation: CTGAN, GMM. Deployment: Streamlit (interactive web interface). Methods: • Data preprocessing (normalization, skip imputation) • Model training with hyperparameter optimization. Ensemble methods (gradient bousting, random forest). Results: The gradient boosting model showed the highest accuracy (89%). Key predictors of DM1: glucose level (>126 mg/dL), HbA1c (>6.5%), BMI (>30).A prototype web application for predicting DM1 risk based on user-entered data was developed. Practical significance: The system can be used for early identification of risk groups for type 1 diabetes mellitus. The solution reduces the burden on physicians by automating primary diagnostics.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- ebd69f755656f7c9fbad4247f92ae0606f499943e036aed1925dd168b43aeaec.pdf
- 41eff8c5868a5156deec96065cc98d13a0cd81b10481ca0183c2a3af0548581d.pdf
- ВВЕДЕНИЕ
- Признаки сахарного диабета I типа
- Комплексы анализов для выявления диабета I типа
- Постановка задачи классификации
- Метод опорных векторов
- Деревья решений
- Градиентный бустинг
- Алгоритм случайного леса
- Логистическая регрессия
- Метрики классификации
- Accuracy
- Precision
- Recall
- F-score
- ГЛАВА 1. ПОСТАНОВКА ЗАДАЧИ И ИССЛЕДОВАНИЕ МЕТОДОВ КЛАССИФИКАЦИИ
- ГЛАВА 2. ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ
- ГЛАВА 3. ИССЛЕДОВАНИЕ СУЩЕСТВУЮЩИХ МЕТОДОВ ГЕНЕРИРОВАНИЯ СИНТЕТИЧЕСКИХ ДАННЫХ
- Статистические методы
- Методы на основе машинного обучения
- ГЛАВА 4. ОПИСАНИЕ НАБОРА ДАННЫХ ДЛЯ ОБУЧЕНИЯ
- Характеристики выборки
- Общие характеристики датасета
- ГЛАВА 5. РЕАЛИЗАЦИЯ
- Общее назначение приложения
- Основные компоненты приложения
- Ключевые особенности
- Поток работы
- Архитектура приложения
- Реализованные методы
- 1. Функции обработки данных
- 2. Генерация синтетических данных
- 3. Анализ влияния данных
- 4. Загрузка данных
- Технические требования
- Общее назначение приложения
- ГЛАВА 6. РЕЗУЛЬТАТЫ
- Постановка эксперимента
- Обучение моделей с различными гиперпараметрами
- Анализ влияния синтетических данных на работу моделей
- Итог по анализу влияния синтетических данных
- ЗАКЛЮЧЕНИЕ
- ВВЕДЕНИЕ
- 01b6fb11322a5fc5559d3786301f7b3627701b132629b903274f78003bea187f.pdf
- ГЛАВА 6. РЕЗУЛЬТАТЫ
- ПРИЛОЖЕНИЕ
- ЛИТЕРАТУРА
- ГЛАВА 6. РЕЗУЛЬТАТЫ
Access count: 0
Last 30 days: 0