Детальная информация

Название: Распознавание эмоций в речи на русском языке: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения»
Авторы: Пентин Серафим Сергеевич
Научный руководитель: Богач Наталья Владимировна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения: Санкт-Петербург, 2024
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: нейронные сети; определение эмоций в речи; MFCC; ZCR; SOTA; CNN; neural networks; speech emotion recogition
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.01
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2024/vr/vr24-1798
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно: Новинка
Ключ записи: ru\spstu\vkr\28842

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Определение эмоций по голосу является одним из ключевых направлений исследований в области распознавания эмоций, а также является сложной задачей в области обработки речи. Речь несет в себе множество информации, которая может быть использована для анализа эмоционального состояния говорящего. В работе представлена модель, которая передает обработанные аудиофайлы в сверточную нейронную сеть (CNN). При обучении модели используется набор данных Dusha. Для выполнения задачи определения эмоций речь, представленная в виде аудиозаписи, проходит несколько этапов обработки. Сначала из аудиозаписи выделяются необходимые признаки, которые затем используются для обучения модели сверточной нейронной сети. После обученная модель используется для классификации эмоций в новых аудиозаписях. Для оценки эффективности разработанной модели был проведён анализ точности классификации. Оценка эффективности модели показала довольно хороший результат среднего гармонического значения точности и полноты - 84,94%.

Speech emotion recognition is one of the key areas of research in the field of emotion recognition, and is also a challenging task in the field of speech processing. Speech carries a lot of information that can be used to analyze the emotional state of the speaker. The paper presents a model that transmits processed audio files to a convolutional neural network (CNN). When training a model using the Dusha dataset. To perform the task of determining emotions, speech presented in the form of an audio recording goes through several stages of processing. First, the necessary features are extracted from the audio recording, which are then used to train a convolutional neural network model. After that, the trained model is used to classify emotions in new audio recordings. To assess the effectiveness of the developed model, an analysis of the classification accuracy was carried out. The evaluation of the effectiveness of the model showed a fairly good result of the average harmonic value of accuracy and completeness – 84,94%.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 0
За последние 30 дней: 0
Подробная статистика