Детальная информация

Название Программное обеспечение для голосового диалога c AI: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Авторы Ху Юйчуань
Научный руководитель Амосов Владимир Владимирович
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения Санкт-Петербург, 2025
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика диалоговая система ии ; виртуальный персонаж ; unreal engine ; распознавание речи ; эмоции ; asr ; tts ; chatgpt ; ai dialogue system ; virtual character ; speech recognition ; emotions
Тип документа Выпускная квалификационная работа магистра
Тип файла PDF
Язык Русский
Уровень высшего образования Магистратура
Код специальности ФГОС 09.04.04
Группа специальностей ФГОС 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-2240
Права доступа Доступ по паролю из сети Интернет (чтение)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\35523
Дата создания записи 14.07.2025

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Выпускная квалификационная работа на тему: Программное обеспечение для голосового диалога с АI. Целью данной работы является разработка программного обеспечения для иммерсивного голосового взаимодействия, способного общаться с искусственным интеллектом, с поддержкой распознавания эмоций и анимированной обратной связи. Система объединяет такие ключевые модули, как распознавание речи (ASR), понимание естественного языка (NLP), синтез речи (TTS), распознавание эмоций и управление анимацией, а также использует движок Unreal Engine в качестве платформы визуализации и микросервисы Python в качестве серверной поддержки. Реализован полный цикл «ввод речи - понимание - обратная связь по эмоциям - вывод речи - анимация». В главе 1 описана архитектура системы, в главе 2 - фронт-энд и реализация лицевой анимации, в главе 3 - интеграция моделей, в главе 4 - тестирование и анализ. Система стабильна, отзывчива, масштабируема и подходит для таких областей применения, как образование, обслуживание клиентов и развлечения. Инновация данного проекта заключается в реализации мультимодального и эмоционального взаимодействия в локальной среде. Для достижения поставленных целей были использованы следующие информационные технологии: PyCharm, Python 3.10, Unreal Engine 5.11, NumPy, ONNX Runtime, GPT-3.5 API, VITS, RapidParaformer, модель BERT, а также собственный серверный фреймворк на основе Socket/TCP.

The aim of this work is to develop an immersive voice interaction software capable of communicating with artificial intelligence, with support for emotion recognition and animated feedback. The system integrates key modules such as speech recognition (ASR), natural language understanding (NLP), speech synthesis (TTS), emotion recognition and animation control, and uses Unreal Engine as a visualization platform and Python microservices as server support. A complete cycle of “speech input - understanding - emotion feedback - speech output - animation” is realized. Chapter 1 describes the system architecture, Chapter 2 describes the front-end and facial animation implementation, Chapter 3 describes model integration, and Chapter 4 describes testing and analysis. The system is stable, responsive, scalable and suitable for applications such as education, customer service and entertainment. The innovation of this project is the realization of multimodal and emotional interaction in a local environment.  The following information technologies were used to achieve the goals: PyCharm, Python 3.10, Unreal Engine 5.11, NumPy, ONNX Runtime, GPT-3.5 API, VITS, RapidParaformer, BERT model, and a custom Socket/TCP based server framework.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать
Интернет Авторизованные пользователи СПбПУ
Прочитать
Интернет Анонимные пользователи

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика