Details

Title: Распознавание эмоций в речи на русском языке: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения»
Creators: Пентин Серафим Сергеевич
Scientific adviser: Богач Наталья Владимировна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint: Санкт-Петербург, 2024
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: нейронные сети; определение эмоций в речи; MFCC; ZCR; SOTA; CNN; neural networks; speech emotion recogition
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 09.03.01
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2024/vr/vr24-1798
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally: New arrival
Record key: ru\spstu\vkr\28842

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Определение эмоций по голосу является одним из ключевых направлений исследований в области распознавания эмоций, а также является сложной задачей в области обработки речи. Речь несет в себе множество информации, которая может быть использована для анализа эмоционального состояния говорящего. В работе представлена модель, которая передает обработанные аудиофайлы в сверточную нейронную сеть (CNN). При обучении модели используется набор данных Dusha. Для выполнения задачи определения эмоций речь, представленная в виде аудиозаписи, проходит несколько этапов обработки. Сначала из аудиозаписи выделяются необходимые признаки, которые затем используются для обучения модели сверточной нейронной сети. После обученная модель используется для классификации эмоций в новых аудиозаписях. Для оценки эффективности разработанной модели был проведён анализ точности классификации. Оценка эффективности модели показала довольно хороший результат среднего гармонического значения точности и полноты - 84,94%.

Speech emotion recognition is one of the key areas of research in the field of emotion recognition, and is also a challenging task in the field of speech processing. Speech carries a lot of information that can be used to analyze the emotional state of the speaker. The paper presents a model that transmits processed audio files to a convolutional neural network (CNN). When training a model using the Dusha dataset. To perform the task of determining emotions, speech presented in the form of an audio recording goes through several stages of processing. First, the necessary features are extracted from the audio recording, which are then used to train a convolutional neural network model. After that, the trained model is used to classify emotions in new audio recordings. To assess the effectiveness of the developed model, an analysis of the classification accuracy was carried out. The evaluation of the effectiveness of the model showed a fairly good result of the average harmonic value of accuracy and completeness – 84,94%.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 0
Last 30 days: 0
Detailed usage statistics