Детальная информация

Название: Методы классификации в задачах автоматизированной обработки текстов: выпускная квалификационная работа магистра: направление 09.04.02 «Информационные системы и технологии» ; образовательная программа 09.04.02_04 «Системный анализ и оптимизация информационных систем и технологий»
Авторы: Рудовская София Владимировна
Научный руководитель: Нестеров Сергей Александрович
Другие авторы: Магер Владимир Евстафьевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2021
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Программирования языки; Искусственный интеллект; Базы данных; Информация — Обработка; обработка естественного языка; классификация; natural language processing; classification
УДК: 004.438; 004.8; 004.6; 621.391
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.02
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-975
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\14820

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Данная работа посвящена анализу текстовых записей первичных осмотров пациентов психиатрической клиники с помощью методов интеллектуального анализа данных. Задачи, которые решались в ходе исследования: 1. Изучение особенности обработки естественного языка с практической реализацией на языке программирования R. 2. Классификация текстовых заключений психиатрических осмотров пациентов в соответствии с диагнозами. 3. Определение близости текстов. 4. Сравнение методов и оценка моделей машинного обучения. Были применены следующие методы для определения близости текстов: TF-IDF векторизация текстов с вычислением косинусной близости, скрытый семантический анализ с вычислением косинусной близости, скрытое размещение Дирихле с вычислением расхождения Дженсена-Шеннона. Была проведена классификация текстов первичных осмотров в соответствии с кодами международной классификации болезней. Итоговые модели построены следующими алгоритмами: метод опорных векторов с радиальным ядром, метод градиентного бустинга, метод случайного леса.

The given work is devoted to the initial medical checkup texts analysis in a psychiatric clinic using data mining methods. The research set the following goals: 1. Studying the features of natural language processing with practical implementation in programming language R. 2. Initial medical checkup texts classification in accordance with diagnoses. 3. Determination of the similarity of texts. 4. Comparison of methods and evaluation of machine learning models. The following methods were used to determine the similarity of texts: TF-IDF vectorization with the calculation of cosine similarity, latent semantic analysis with the calculation of cosine similarity, latent Dirichlet allocation with the calculation of the Jensen-Shannon divergence. A texts classification of Initial medical checkup was carried out in accordance with the codes of the international classification of diseases, tenth revision. The resulting models are built with the following algorithms: support vector machine with a radial kernel, gradient boosting method, and random forest method.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 43
За последние 30 дней: 2
Подробная статистика