Детальная информация

Название: Интеллектуальный анализ данных о заболеваниях сердечно-сосудистой системы средствами языка R и аналитических служб SQL Server: выпускная квалификационная работа магистра: направление 09.04.02 «Информационные системы и технологии» ; образовательная программа 09.04.02_04 «Системный анализ и оптимизация информационных систем и технологий»
Авторы: Аверина Анастасия Александровна
Научный руководитель: Нестеров Сергей Александрович
Другие авторы: Магер Владимир Евстафьевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2021
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Базы данных; Вычислительные машины электронные персональные — Программы прикладные; Матрицы (мат.); Математический анализ; модели классификации; сердечно-сосудистые заболевания; classification models; heart disease
УДК: 004.6; 004.9; 512.643; 517; 616.1
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.02
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-1037
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\14805

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Данная работа посвящена исследованию эффективности применения методов интеллектуального анализа данных для предсказания возможности развития у пациентов заболеваний сердечно-сосудистой системы. В работе используются средства статистической обработки данных языка R и аналитические службы SQL Server. Задачи, которые решались в ходе исследования: 1. Обзор задач интеллектуального анализа данных и методов их решения; 2. Исследование особенностей анализа и хранения данных средствами R и MS SQL Server 2017; 3. Анализ предметной области и проведение разведочного анализа данных с использованием методов интеллектуального анализа данных и статистики; 4. Построение моделей интеллектуального анализа данных для прогнози-рования вероятности того, что у случайного пациента появится болезнь сердечно-сосудистой системы, оценка точности данных моделей. Работа проведена с использованием наборов реальных данных по учету заболеваний сердца медицинских центров на базе клиник Лонг-Бич и Кливленда, Венгерского университета кардиологии, клиник при университетах в Базеле и Цюрихе. В ходе работы в наборе выделены ключевые атрибуты, влияющие на изменение вероятности возникновения у пациентов болезней сердца, по итогам проведения статистических t- и χ^2-тестов, построения корреляционных матриц с использованием критериев Пирсона, Кендалла и Спирмана, визуального анализа распределения значений атрибутов. На основе атрибутов, определенных пригодными для анализа, построены модели интеллектуального анализа данных на базе алгоритмов k-ближайших соседей, деревьев решений, упрощённого алгоритма Байеса и логистической регрессии. Модель на основе алгоритма логистической регрессии показала наилучшие результаты и признана пригодной для решения поставленной цели.

The given work is devoted to research efficiency of mining methods in heart disease prediction using R tools and SQL Server analysis services. The research set the following goals: 1. Investigation of data analysis and data mining methods; 2. Studying features of data analysis and storage in R and MS SQL Server 2017; 3. Analysis of subject field and exploratory data analysis using data mining and statistical methods; 4. Building mining models to forecast development of heart disease for a random patient and evaluation of these models. The work was fulfilled by using the heart disease dataset created by Hungarian Institute of Cardiology, Zurich and Basel University Hospitals, V.A. Medical Center in Long Beach and Cleveland Clinic. The key attributes were determined in the research as the result of t- and χ^2- statistical tests, creation of correlation matrices using Spearman’s, Pearson’s and Kendall’s correlation coefficients and visual data analysis. The data mining models were designed on the base of key attributes and decision tree, k-nearest neighbors, naive Bayes and logistic regression mining algorithms. The results of the model based on logistic regression algorithm fit the aim of the research better than other models.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 21
За последние 30 дней: 1
Подробная статистика