Details

Title Мультимодальное распознавание эмоций: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_01 «Разработка компьютерных систем»
Creators Непомнящий Матвей Тимофеевич
Scientific adviser Куляшова Зинаида Викторовна
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects мультимодальное распознавание эмоций ; нейросетевые модели ; компьютерное зрение ; распознавание речи ; обработка естественного языка ; машинное обучение ; глубокое обучение ; классификация эмоций ; видеоаналитика ; аудиоаналитика ; модульная архитектура ; интеллектуальные системы ; временные последовательности ; интеграция модальностей ; multimodal emotion recognition ; neural network models ; computer vision ; speech recognition ; natural language processing ; machine learning ; deep learning ; emotion classification ; video analytics ; audio analytics ; modular architecture ; intelligent systems ; temporal sequences ; modality integration
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.01
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-2518
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key ru\spstu\vkr\37101
Record create date 9/19/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

Работа посвящена разработке системы мультимодального распознавания эмоций на основе видео- и аудиопотоков. В основе лежит модульная архитектура с независимой обработкой визуальной, аудио- и текстовой информации и последующим объединением результатов. Для каждой модальности применяются специализированные нейросетевые модели: ResNet для лица, wav2vec 2.0 и спектрограммы для звука, RoBERTa — для текста.

The presented work is devoted to the development of a system for multimodal emotion recognition based on the analysis of video and audio streams. The system is built using a modular architecture, where each modality is processed independently using specialized models: ResNet for facial expression analysis, wav2vec 2.0 and spectrogram-based CNNs for acoustic analysis, and the RoBERTa transformer model for text-based emotion recognition.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 0 
Last 30 days: 0

Detailed usage statistics