Details

Title: Методы классификации в задачах автоматизированной обработки текстов: выпускная квалификационная работа магистра: направление 09.04.02 «Информационные системы и технологии» ; образовательная программа 09.04.02_04 «Системный анализ и оптимизация информационных систем и технологий»
Creators: Рудовская София Владимировна
Scientific adviser: Нестеров Сергей Александрович
Other creators: Магер Владимир Евстафьевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2021
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: Программирования языки; Искусственный интеллект; Базы данных; Информация — Обработка; обработка естественного языка; классификация; natural language processing; classification
UDC: 004.438; 004.8; 004.6; 621.391
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 09.04.02
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-975
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\14820

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Данная работа посвящена анализу текстовых записей первичных осмотров пациентов психиатрической клиники с помощью методов интеллектуального анализа данных. Задачи, которые решались в ходе исследования: 1. Изучение особенности обработки естественного языка с практической реализацией на языке программирования R. 2. Классификация текстовых заключений психиатрических осмотров пациентов в соответствии с диагнозами. 3. Определение близости текстов. 4. Сравнение методов и оценка моделей машинного обучения. Были применены следующие методы для определения близости текстов: TF-IDF векторизация текстов с вычислением косинусной близости, скрытый семантический анализ с вычислением косинусной близости, скрытое размещение Дирихле с вычислением расхождения Дженсена-Шеннона. Была проведена классификация текстов первичных осмотров в соответствии с кодами международной классификации болезней. Итоговые модели построены следующими алгоритмами: метод опорных векторов с радиальным ядром, метод градиентного бустинга, метод случайного леса.

The given work is devoted to the initial medical checkup texts analysis in a psychiatric clinic using data mining methods. The research set the following goals: 1. Studying the features of natural language processing with practical implementation in programming language R. 2. Initial medical checkup texts classification in accordance with diagnoses. 3. Determination of the similarity of texts. 4. Comparison of methods and evaluation of machine learning models. The following methods were used to determine the similarity of texts: TF-IDF vectorization with the calculation of cosine similarity, latent semantic analysis with the calculation of cosine similarity, latent Dirichlet allocation with the calculation of the Jensen-Shannon divergence. A texts classification of Initial medical checkup was carried out in accordance with the codes of the international classification of diseases, tenth revision. The resulting models are built with the following algorithms: support vector machine with a radial kernel, gradient boosting method, and random forest method.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 43
Last 30 days: 2
Detailed usage statistics