Details

Title Программное обеспечение для голосового диалога c AI: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Creators Ху Юйчуань
Scientific adviser Амосов Владимир Владимирович
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects диалоговая система ии ; виртуальный персонаж ; unreal engine ; распознавание речи ; эмоции ; asr ; tts ; chatgpt ; ai dialogue system ; virtual character ; speech recognition ; emotions
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 09.04.04
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-2240
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\35523
Record create date 7/14/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Выпускная квалификационная работа на тему: Программное обеспечение для голосового диалога с АI. Целью данной работы является разработка программного обеспечения для иммерсивного голосового взаимодействия, способного общаться с искусственным интеллектом, с поддержкой распознавания эмоций и анимированной обратной связи. Система объединяет такие ключевые модули, как распознавание речи (ASR), понимание естественного языка (NLP), синтез речи (TTS), распознавание эмоций и управление анимацией, а также использует движок Unreal Engine в качестве платформы визуализации и микросервисы Python в качестве серверной поддержки. Реализован полный цикл «ввод речи - понимание - обратная связь по эмоциям - вывод речи - анимация». В главе 1 описана архитектура системы, в главе 2 - фронт-энд и реализация лицевой анимации, в главе 3 - интеграция моделей, в главе 4 - тестирование и анализ. Система стабильна, отзывчива, масштабируема и подходит для таких областей применения, как образование, обслуживание клиентов и развлечения. Инновация данного проекта заключается в реализации мультимодального и эмоционального взаимодействия в локальной среде. Для достижения поставленных целей были использованы следующие информационные технологии: PyCharm, Python 3.10, Unreal Engine 5.11, NumPy, ONNX Runtime, GPT-3.5 API, VITS, RapidParaformer, модель BERT, а также собственный серверный фреймворк на основе Socket/TCP.

The aim of this work is to develop an immersive voice interaction software capable of communicating with artificial intelligence, with support for emotion recognition and animated feedback. The system integrates key modules such as speech recognition (ASR), natural language understanding (NLP), speech synthesis (TTS), emotion recognition and animation control, and uses Unreal Engine as a visualization platform and Python microservices as server support. A complete cycle of “speech input - understanding - emotion feedback - speech output - animation” is realized. Chapter 1 describes the system architecture, Chapter 2 describes the front-end and facial animation implementation, Chapter 3 describes model integration, and Chapter 4 describes testing and analysis. The system is stable, responsive, scalable and suitable for applications such as education, customer service and entertainment. The innovation of this project is the realization of multimodal and emotional interaction in a local environment.  The following information technologies were used to achieve the goals: PyCharm, Python 3.10, Unreal Engine 5.11, NumPy, ONNX Runtime, GPT-3.5 API, VITS, RapidParaformer, BERT model, and a custom Socket/TCP based server framework.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous

Access count: 0 
Last 30 days: 0

Detailed usage statistics