Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Данная работа посвящена исследованию эффективности применения методов интеллектуального анализа данных для предсказания возможности развития у пациентов заболеваний сердечно-сосудистой системы. В работе используются средства статистической обработки данных языка R и аналитические службы SQL Server. Задачи, которые решались в ходе исследования: 1. Обзор задач интеллектуального анализа данных и методов их решения; 2. Исследование особенностей анализа и хранения данных средствами R и MS SQL Server 2017; 3. Анализ предметной области и проведение разведочного анализа данных с использованием методов интеллектуального анализа данных и статистики; 4. Построение моделей интеллектуального анализа данных для прогнози-рования вероятности того, что у случайного пациента появится болезнь сердечно-сосудистой системы, оценка точности данных моделей. Работа проведена с использованием наборов реальных данных по учету заболеваний сердца медицинских центров на базе клиник Лонг-Бич и Кливленда, Венгерского университета кардиологии, клиник при университетах в Базеле и Цюрихе. В ходе работы в наборе выделены ключевые атрибуты, влияющие на изменение вероятности возникновения у пациентов болезней сердца, по итогам проведения статистических t- и χ^2-тестов, построения корреляционных матриц с использованием критериев Пирсона, Кендалла и Спирмана, визуального анализа распределения значений атрибутов. На основе атрибутов, определенных пригодными для анализа, построены модели интеллектуального анализа данных на базе алгоритмов k-ближайших соседей, деревьев решений, упрощённого алгоритма Байеса и логистической регрессии. Модель на основе алгоритма логистической регрессии показала наилучшие результаты и признана пригодной для решения поставленной цели.
The given work is devoted to research efficiency of mining methods in heart disease prediction using R tools and SQL Server analysis services. The research set the following goals: 1. Investigation of data analysis and data mining methods; 2. Studying features of data analysis and storage in R and MS SQL Server 2017; 3. Analysis of subject field and exploratory data analysis using data mining and statistical methods; 4. Building mining models to forecast development of heart disease for a random patient and evaluation of these models. The work was fulfilled by using the heart disease dataset created by Hungarian Institute of Cardiology, Zurich and Basel University Hospitals, V.A. Medical Center in Long Beach and Cleveland Clinic. The key attributes were determined in the research as the result of t- and χ^2- statistical tests, creation of correlation matrices using Spearman’s, Pearson’s and Kendall’s correlation coefficients and visual data analysis. The data mining models were designed on the base of key attributes and decision tree, k-nearest neighbors, naive Bayes and logistic regression mining algorithms. The results of the model based on logistic regression algorithm fit the aim of the research better than other models.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Usage statistics
Access count: 22
Last 30 days: 0 Detailed usage statistics |