Детальная информация
Название | Программное обеспечение для голосового диалога c AI: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных» |
---|---|
Авторы | Ху Юйчуань |
Научный руководитель | Амосов Владимир Владимирович |
Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Выходные сведения | Санкт-Петербург, 2025 |
Коллекция | Выпускные квалификационные работы ; Общая коллекция |
Тематика | диалоговая система ии ; виртуальный персонаж ; unreal engine ; распознавание речи ; эмоции ; asr ; tts ; chatgpt ; ai dialogue system ; virtual character ; speech recognition ; emotions |
Тип документа | Выпускная квалификационная работа магистра |
Тип файла | |
Язык | Русский |
Уровень высшего образования | Магистратура |
Код специальности ФГОС | 09.04.04 |
Группа специальностей ФГОС | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-2240 |
Права доступа | Доступ по паролю из сети Интернет (чтение) |
Дополнительно | Новинка |
Ключ записи | ru\spstu\vkr\35523 |
Дата создания записи | 14.07.2025 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа | Анонимные пользователи |
---|---|
Сеть | Интернет |
Выпускная квалификационная работа на тему: Программное обеспечение для голосового диалога с АI. Целью данной работы является разработка программного обеспечения для иммерсивного голосового взаимодействия, способного общаться с искусственным интеллектом, с поддержкой распознавания эмоций и анимированной обратной связи. Система объединяет такие ключевые модули, как распознавание речи (ASR), понимание естественного языка (NLP), синтез речи (TTS), распознавание эмоций и управление анимацией, а также использует движок Unreal Engine в качестве платформы визуализации и микросервисы Python в качестве серверной поддержки. Реализован полный цикл «ввод речи - понимание - обратная связь по эмоциям - вывод речи - анимация». В главе 1 описана архитектура системы, в главе 2 - фронт-энд и реализация лицевой анимации, в главе 3 - интеграция моделей, в главе 4 - тестирование и анализ. Система стабильна, отзывчива, масштабируема и подходит для таких областей применения, как образование, обслуживание клиентов и развлечения. Инновация данного проекта заключается в реализации мультимодального и эмоционального взаимодействия в локальной среде. Для достижения поставленных целей были использованы следующие информационные технологии: PyCharm, Python 3.10, Unreal Engine 5.11, NumPy, ONNX Runtime, GPT-3.5 API, VITS, RapidParaformer, модель BERT, а также собственный серверный фреймворк на основе Socket/TCP.
The aim of this work is to develop an immersive voice interaction software capable of communicating with artificial intelligence, with support for emotion recognition and animated feedback. The system integrates key modules such as speech recognition (ASR), natural language understanding (NLP), speech synthesis (TTS), emotion recognition and animation control, and uses Unreal Engine as a visualization platform and Python microservices as server support. A complete cycle of “speech input - understanding - emotion feedback - speech output - animation” is realized. Chapter 1 describes the system architecture, Chapter 2 describes the front-end and facial animation implementation, Chapter 3 describes model integration, and Chapter 4 describes testing and analysis. The system is stable, responsive, scalable and suitable for applications such as education, customer service and entertainment. The innovation of this project is the realization of multimodal and emotional interaction in a local environment. The following information technologies were used to achieve the goals: PyCharm, Python 3.10, Unreal Engine 5.11, NumPy, ONNX Runtime, GPT-3.5 API, VITS, RapidParaformer, BERT model, and a custom Socket/TCP based server framework.
Место доступа | Группа пользователей | Действие |
---|---|---|
Локальная сеть ИБК СПбПУ | Все |
|
Интернет | Авторизованные пользователи СПбПУ |
|
Интернет | Анонимные пользователи |
|
Количество обращений: 0
За последние 30 дней: 0