Details
| Title | Automatic Sentiment Classification in Medical Texts Based on Rules and Supervised Machine Learning Algorithms: выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)» |
|---|---|
| Creators | Джалалова Камила Исроиловна |
| Scientific adviser | Дмитриев Александр Владиславович |
| Organization | Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт |
| Imprint | Санкт-Петербург, 2025 |
| Collection | Выпускные квалификационные работы ; Общая коллекция |
| Subjects | sentiment analysis ; natural language processing ; machine learning ; sentiment lexicons ; medical discourse ; анализ тональности ; обработка естественного языка ; машинное обучение ; словари тональности ; медицинский дискурс |
| Document type | Master graduation qualification work |
| File type | |
| Language | Russian |
| Level of education | Master |
| Speciality code (FGOS) | 45.04.04 |
| Speciality group (FGOS) | 450000 - Языкознание и литературоведение |
| DOI | 10.18720/SPBPU/3/2025/vr/vr25-3919 |
| Rights | Доступ по паролю из сети Интернет (чтение) |
| Additionally | New arrival |
| Record key | ru\spstu\vkr\37598 |
| Record create date | 9/19/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
| Group | Anonymous |
|---|---|
| Network | Internet |
The graduate qualification paper is devoted to a comparative analysis of two approaches to automatic sentiment classification – rule-based and supervised machine learning – applied to patient-generated medical reviews, with the aim of determining the most effective approach to sentiment detection in healthcare-related texts. To achieve the purpose, the following objectives have been set: 1. Examine the concept, development, and significance of sentiment analysis in NLP. 2. Analyze rule-based approaches, including their principles, examples, advantages, and limitations in sentiment analysis. 3. Investigate classical supervised learning methods, their key algorithms, comparative advantages and drawbacks for sentiment analysis. 4. Characterize the linguistic features of medical texts and terminology. 5. Describe the characteristics and relevance of the pre-processed healthcare-related dataset used in the study. 6. Implement and evaluate both lexicon-based and classical supervised learning methods on the dataset using standard metrics. 7. Compare the performance of the two approaches in terms of accuracy, interpretability, and practical applicability to determine the most suitable solution. Evaluation results on metrics demonstrated that machine learning models provide higher accuracy, especially after sample balancing, while rule-based methods retain interpretability. The research involved a range of information technologies, including Python libraries such as NLTK, spaCy, pandas, and scikit-learn for text processing and machine learning implementation, as well as the open-access platform Kaggle, used as a source of corpora and collections of textual data.
Выпускная квалификационная работа посвящена сравнительному анализу двух подходов к автоматической классификации тональности – на основе правил и машинного обучения с учителем –применительно к медицинским отзывам, созданным пациентами, с целью определения наиболее результативного подхода к определению тональности текстов в сфере здравоохранения. Для достижения цели были поставлены следующие задачи: 1.Изучить понятие, развитие и значимость анализа тональности в области обработки естественного языка. 2. Проанализировать принципы подхода на основе правил, его примеры применения, а также достоинства и недостатки при анализе тональности. 3.Рассмотреть классические методы обучения с учителем, их ключевые алгоритмы, сравнительные преимущества и недостатки при анализе тональности. 4.Охарактеризовать лингвистические особенности медицинских текстов и терминологии. 5.Описать характеристики и релевантность предварительно обработанного корпуса медицинских текстов, использованного в исследовании. 6.Применить методы на основе правил и алгоритмы машинного обучения с учителем на выбранном корпусе с использованием стандартных метрик. 7.Сравнить эффективность двухподходов, учитывая точность, прозрачность результатов и возможность практического применения для выявления наиболее оптимального подхода. Результаты оценки по метрикам показали, что модели машинного обучения обеспечивают более высокую точность, особенно после балансировки выборки, в то время как многие из методов, основанных на правилах, сохраняют прежние результаты. В исследовании использовался ряд информационных технологий, включая библиотеки на языке Python, такие как NLTK, spaCy, pandas и scikit-learn, для обработки текстов и реализации алгоритмов машинного обучения, а также платформа Kaggle в качестве источника корпусов и коллекций текстовых данных.
| Network | User group | Action |
|---|---|---|
| ILC SPbPU Local Network | All |
|
| Internet | Authorized users SPbPU |
|
| Internet | Anonymous |
|
- CONTENTS
- INTRODUCTION
- CHAPTER 1. FEATURES OF SENTIMENT ANALYSIS IN NATURAL LANGUAGE PROCESSING
- 1.1. Sentiment analysis as a task of natural language processing
- 1.2. Rule-based approaches to sentiment analysis
- 1.3. Machine learning methods in sentiment analysis
- 1.4. Linguistic features of medical texts and terminology
- Conclusions on chapter 1
- CHAPTER 2. COMPARISON OF RULE-BASED AND MACHINE LEARNING APPROACHES TO SENTIMENT ANALYSIS BASED ON MEDICAL REVIEWS
- 2.1. The methodology of the research
- 2.2. Description of the dataset and its characteristics
- 2.3. Implementation of the rule-based approach
- 2.4. Implementation of machine learning methods
- 2.5. Comparative analysis of approaches to sentiment classification of texts in medical domain
- 2.5.1. Language patterns in patient-generated medical texts
- Conclusions on chapter 2
- CONCLUSION
- REFERENCES
- Appendix 1. SentiWordNet sentiment scoring function
- Appendix 2. AFINN sentiment scoring function
- Appendix 3. VADER sentiment scoring function
- Appendix 4. TextBlob sentiment scoring function
- Appendix 5. Supervised machine learning sentiment analysis
- Appendix 6. The algorithm for class balancing
- Appendix 7. Frequency analysis of bigrams, trigrams and pronouns by class
- Appendix 8. Frequency analysis of modal and perceptive verbs by class
Access count: 0
Last 30 days: 0