Details

Title Распознование эмоций по голосу: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения»
Creators Шагеева Эрика Валеевна
Scientific adviser Богач Наталья Владимировна
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects CNN ; MFCC ; SER ; нейронная сеть ; глубокое обучение ; спектрограмма ; фрактальные размерности ; распознавание эмоций ; PCA ; F-критерий ; neural network ; deep learning ; spectrogram ; fractal dimensions ; emotion recognition ; F-test
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.01
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-3032
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key ru\spstu\vkr\37290
Record create date 9/19/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

Тема выпускной квалификационной работы: «Разработка системы распо знавания эмоций по голосу с использованием фрактальных характеристик». Работа состоит из нескольких этапов: обзор предметной области, описание системы, программная реализация модели и анализ результатов. В данной работе производится изучение сферы речевого распознавания эмоций, анализ и выявле ние основных компонентов, которые необходимы для построения современной системы SER. Были разработаны функции и методы для извлечения речевых признаков, включая MFCC, мел-спектрограммы, частоту пересечения нуля и четыре типа фрактальных размерностей: Каца, Кастильони, Петросяна и Хигучи. Реализована архитектура одномерной сверточной нейронной сети с использованием методов регуляризации и снижения размерности через PCA. В качестве результатов получены шесть обученных моделей на русско язычном датасете DUSHA. Базовая модель показала точность 78,11%, модель с полным набором фрактальных размерностей достигла 82,76%. Статистический анализ подтвердил значимость улучшений (p<0,05), что доказывает эффектив ность использования фрактальных размерностей для классификации эмоций в русской речи.

The subject of the graduate qualification work: "Development of a speech emo tion recognition system using fractal characteristics". The work consists of several stages: literature review, system description, soft ware implementation of the model, and results analysis. This work studies the field of speech emotion recognition, analyzes and identifies the main components necessary for building a modern SER system. Functions and methods for extracting speech features were developed, including MFCC, mel-spectrograms, zero crossing rate, and four types of fractal dimensions: Katz, Castiglioni, Petrosian, and Higuchi. A one-dimensional convolutional neural net work architecture was implemented using regularization methods and dimensionality reduction through PCA. As results, six trained models were obtained on the Russian-language DUSHA dataset. The baseline model showed an accuracy of 78.11%, while the model with the full set of fractal dimensions achieved 82.76%. Statistical analysis confirmed the sig nificance of improvements (p<0.05), proving the effectiveness of using fractal dimen sions for emotion classification in Russian speech.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 0 
Last 30 days: 0

Detailed usage statistics