Details

Title: Интеллектуальный анализ данных о заболеваниях сердечно-сосудистой системы средствами языка R и аналитических служб SQL Server: выпускная квалификационная работа магистра: направление 09.04.02 «Информационные системы и технологии» ; образовательная программа 09.04.02_04 «Системный анализ и оптимизация информационных систем и технологий»
Creators: Аверина Анастасия Александровна
Scientific adviser: Нестеров Сергей Александрович
Other creators: Магер Владимир Евстафьевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2021
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: Базы данных; Вычислительные машины электронные персональные — Программы прикладные; Матрицы (мат.); Математический анализ; модели классификации; сердечно-сосудистые заболевания; classification models; heart disease
UDC: 004.6; 004.9; 512.643; 517; 616.1
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 09.04.02
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-1037
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\14805

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Данная работа посвящена исследованию эффективности применения методов интеллектуального анализа данных для предсказания возможности развития у пациентов заболеваний сердечно-сосудистой системы. В работе используются средства статистической обработки данных языка R и аналитические службы SQL Server. Задачи, которые решались в ходе исследования: 1. Обзор задач интеллектуального анализа данных и методов их решения; 2. Исследование особенностей анализа и хранения данных средствами R и MS SQL Server 2017; 3. Анализ предметной области и проведение разведочного анализа данных с использованием методов интеллектуального анализа данных и статистики; 4. Построение моделей интеллектуального анализа данных для прогнози-рования вероятности того, что у случайного пациента появится болезнь сердечно-сосудистой системы, оценка точности данных моделей. Работа проведена с использованием наборов реальных данных по учету заболеваний сердца медицинских центров на базе клиник Лонг-Бич и Кливленда, Венгерского университета кардиологии, клиник при университетах в Базеле и Цюрихе. В ходе работы в наборе выделены ключевые атрибуты, влияющие на изменение вероятности возникновения у пациентов болезней сердца, по итогам проведения статистических t- и χ^2-тестов, построения корреляционных матриц с использованием критериев Пирсона, Кендалла и Спирмана, визуального анализа распределения значений атрибутов. На основе атрибутов, определенных пригодными для анализа, построены модели интеллектуального анализа данных на базе алгоритмов k-ближайших соседей, деревьев решений, упрощённого алгоритма Байеса и логистической регрессии. Модель на основе алгоритма логистической регрессии показала наилучшие результаты и признана пригодной для решения поставленной цели.

The given work is devoted to research efficiency of mining methods in heart disease prediction using R tools and SQL Server analysis services. The research set the following goals: 1. Investigation of data analysis and data mining methods; 2. Studying features of data analysis and storage in R and MS SQL Server 2017; 3. Analysis of subject field and exploratory data analysis using data mining and statistical methods; 4. Building mining models to forecast development of heart disease for a random patient and evaluation of these models. The work was fulfilled by using the heart disease dataset created by Hungarian Institute of Cardiology, Zurich and Basel University Hospitals, V.A. Medical Center in Long Beach and Cleveland Clinic. The key attributes were determined in the research as the result of t- and χ^2- statistical tests, creation of correlation matrices using Spearman’s, Pearson’s and Kendall’s correlation coefficients and visual data analysis. The data mining models were designed on the base of key attributes and decision tree, k-nearest neighbors, naive Bayes and logistic regression mining algorithms. The results of the model based on logistic regression algorithm fit the aim of the research better than other models.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 22
Last 30 days: 0
Detailed usage statistics