Details

Title: Expert system in natural language processing sentiment analysis: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа) / Intelligent Systems (International Educational Program)»
Creators: Монтанья Гутиеррес Мигель Анхель
Scientific adviser: Шкодырев Вячеслав Петрович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2023
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: нейронные сети; обработка естественного языка; переключение кодов; смешивание кодов; анализ настроений; многоязычие; двуязычие; глубокое обучение; машинное обучение; идентификация языка; моделирование языка; встраивание слов; языковые ресурсы; межъязыковое обучение; трансферное обучение; neural networks; natural language processing; codeswitching; code-mixing; sentiment analysis; multilingualism; bilingualism; deep learning; machine learning; language identification; language modeling; word embeddings; language resources; cross-lingual; transfer learning
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 09.04.01
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2023/vr/vr24-602
Rights: Доступ по паролю из сети Интернет (чтение, печать)
Additionally: New arrival
Record key: ru\spstu\vkr\27474

Allowed Actions:

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Переключение кода и смешение кодов — распространенные лингвистические явления, которые предполагают поочередное использование двух или более языков или языковых разновидностей в пределах одного отдельный разговор или предложение. С растущей многоязычностью общества, стало крайне важно разработать инструменты и методы для анализа кодовой коммутации. и смешанный код в обработке естественного языка (NLP). Эта диссертация посвящена анализу настроений кодовых и смешанных кодов. текст на английском и испанском языках с использованием рекуррентных нейронных сетей (RNN) в качестве основного. аналитический инструмент. В диссертации представлена ​​комплексная методология обучения RNN. о тексте с кодовой коммутацией и смешанным кодом, охватывающем архитектуру нейронной сети, процесс обучения и метрики оценки. Методика применяется к набору данных IMDb, который содержит фильмы обзоры на английском языке, в которых наблюдается переключение и смешение кодов между английскими языками. и испанский. Цель состоит в том, чтобы предсказать настроение каждого обзора фильма. Результаты анализа настроений сравниваются с существующими инструментами анализа настроений для английском и испанском языках, демонстрируя эффективность предлагаемой методики. Кроме того, в этой диссертации подчеркивается инновация использования RNN для анализ настроений текста с кодовым переключением и смешанным кодом и обсуждает потенциальные возможности применение этой методологии в различных областях, таких как анализ социальных сетей, анализ отзывов клиентов, а также преподавание и изучение языка.

Code-switching and code-mixing are prevalent linguistic phenomena that involve the alternating use of two or more languages or language varieties within a single conversation or sentence. With the growing multilingual nature of societies, it has become crucial to develop tools and techniques for analyzing code-switched and code-mixed text in natural language processing (NLP). This thesis focuses on sentiment analysis of code-switched and code-mixed text in English and Spanish using recurrent neural networks (RNNs) as the primary analytical tool. The thesis presents a comprehensive methodology for training RNNs on code-switched and code-mixed text, covering the neural network architecture, training process, and evaluation metrics. The methodology is applied to the IMDb dataset, which contains movie reviews in English that exhibit code-switching and code-mixing between English and Spanish. The goal is to predict the sentiment of each movie review. The results of the sentiment analysis are compared with existing sentiment analysis tools for English and Spanish, demonstrating the effectiveness of the proposed methodology. Additionally, this thesis highlights the innovation of using RNNs for sentiment analysis of code-switched and code-mixed text and discusses the potential applications of this methodology in various domains, such as social media analysis, customer feedback analysis, and language teaching and learning.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print
Internet Authorized users SPbPU Read Print
-> Internet Anonymous

Table of Contents

  • c92d2cdfe91640fc56e2b0483aa7c6bc1885acd920bbd88b03b4d1d4ffe8fc70.pdf
    • 93167b27510d0892f3ceba3cdac992fd28966ed309e593609a92f62162069182.pdf
  • 5611b31ee43e90ae4038209229b33b9ea30d46d2c8613923e9614aee807e2fe6.pdf
  • c92d2cdfe91640fc56e2b0483aa7c6bc1885acd920bbd88b03b4d1d4ffe8fc70.pdf

Usage statistics

stat Access count: 0
Last 30 days: 0
Detailed usage statistics