Детальная информация

Название: Система синтеза и конверсии голоса для целей генерации неигровых персонажей: выпускная квалификационная работа магистра: направление 09.04.03 «Прикладная информатика» ; образовательная программа 09.04.03_04 «Прикладная информатика в области информационных ресурсов»
Авторы: Кожевников Андрей Сергеевич
Научный руководитель: Белых Игорь Николаевич
Другие авторы: Пархоменко Владимир Андреевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: TTS; клонирование голоса; синтез речи; NLP; машинное обучение; конверсия голоса; text-too-speech; voice synthesis; voice cloning; voice conversion; ML; machine learning
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.03
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1019
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\8207

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Целью данной выпускной квалификационной работы стала разработка и реализация системы для синтеза и конверсии голоса для целей генерации неигровых персонажей с возможностью последующего их импорта непосредственно в игровое пространство. Для достижения этой цели был поставлен ряд задач, которые выполняются в рамках данной работы: обзор существующих методов и алгоритмов, реализация алгоритмов синтеза и конверсии голоса, разработка алгоритма эмоционального окрашивания голоса, реализация разработанного алгоритма. Актуальность и значимость исследований в данном направлении обоснована тенденциями ИТ отрасли по активному внедрению голосовых интерфейсов во все сферы жизнедеятельности, а также наличием аналогичных независимых исследований в данной теме. Практическая значимость работы заключается в создании возможности для компаний–разработчиков игр существенно снижать затраты на озвучку персонажей, что может помочь начинающим компаниям сделать свой продукт более заметным на рынке, а большим корпорациям удешевить и ускорить процесс разработки и локализации. Результатом данной выпускной квалификационной работы стала система, которая позволяет выполнять синтез речи на устройствах с GPU на скорости, сравнимой со скоростью «реального времени», а на устройствах с CPU – выполнять синтез за приемлемое время.

The goal of this graduation qualification work was the development and implementation of a system for synthesizing and converting voice for the purpose of generating non-player characters with the possibility of their subsequent import directly into the game space. To achieve this goal, a number of tasks were set that are performed within the framework of this work: a review of existing methods and algorithms, implementation of voice synthesis and conversion algorithms, development of an algorithm for emotional voice coloring, implementation of the developed algorithm. The relevance and importance of research in this area is justified by the trends of the IT industry in the active implementation of voice interfaces in all spheres of life, as well as the availability of similar independent research in this topic. The practical significance of the work is to create opportunities for game development companies to significantly reduce the cost of voice acting, which can help indie companies make their product more attractive on the market, and reduce the cost and speed up the development and localization process for large corporations. The result of this final qualification work was a system that allows you to perform speech synthesis on devices with a GPU at a speed comparable to the speed of "real time", and on devices with a CPU - to perform synthesis in an acceptable time.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 8
За последние 30 дней: 0
Подробная статистика