Details
Title | Система синтеза и конверсии голоса для целей генерации неигровых персонажей: выпускная квалификационная работа магистра: направление 09.04.03 «Прикладная информатика» ; образовательная программа 09.04.03_04 «Прикладная информатика в области информационных ресурсов» |
---|---|
Creators | Кожевников Андрей Сергеевич |
Scientific adviser | Белых Игорь Николаевич |
Other creators | Пархоменко Владимир Андреевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий |
Imprint | Санкт-Петербург, 2020 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | TTS ; клонирование голоса ; синтез речи ; NLP ; машинное обучение ; конверсия голоса ; text-too-speech ; voice synthesis ; voice cloning ; voice conversion ; ML ; machine learning |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 09.04.03 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
Links | Отзыв руководителя ; Рецензия ; Отчет о проверке на объем и корректность внешних заимствований |
DOI | 10.18720/SPBPU/3/2020/vr/vr20-1019 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Record key | ru\spstu\vkr\8207 |
Record create date | 7/31/2020 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Целью данной выпускной квалификационной работы стала разработка и реализация системы для синтеза и конверсии голоса для целей генерации неигровых персонажей с возможностью последующего их импорта непосредственно в игровое пространство. Для достижения этой цели был поставлен ряд задач, которые выполняются в рамках данной работы: обзор существующих методов и алгоритмов, реализация алгоритмов синтеза и конверсии голоса, разработка алгоритма эмоционального окрашивания голоса, реализация разработанного алгоритма. Актуальность и значимость исследований в данном направлении обоснована тенденциями ИТ отрасли по активному внедрению голосовых интерфейсов во все сферы жизнедеятельности, а также наличием аналогичных независимых исследований в данной теме. Практическая значимость работы заключается в создании возможности для компаний–разработчиков игр существенно снижать затраты на озвучку персонажей, что может помочь начинающим компаниям сделать свой продукт более заметным на рынке, а большим корпорациям удешевить и ускорить процесс разработки и локализации. Результатом данной выпускной квалификационной работы стала система, которая позволяет выполнять синтез речи на устройствах с GPU на скорости, сравнимой со скоростью «реального времени», а на устройствах с CPU – выполнять синтез за приемлемое время.
The goal of this graduation qualification work was the development and implementation of a system for synthesizing and converting voice for the purpose of generating non-player characters with the possibility of their subsequent import directly into the game space. To achieve this goal, a number of tasks were set that are performed within the framework of this work: a review of existing methods and algorithms, implementation of voice synthesis and conversion algorithms, development of an algorithm for emotional voice coloring, implementation of the developed algorithm. The relevance and importance of research in this area is justified by the trends of the IT industry in the active implementation of voice interfaces in all spheres of life, as well as the availability of similar independent research in this topic. The practical significance of the work is to create opportunities for game development companies to significantly reduce the cost of voice acting, which can help indie companies make their product more attractive on the market, and reduce the cost and speed up the development and localization process for large corporations. The result of this final qualification work was a system that allows you to perform speech synthesis on devices with a GPU at a speed comparable to the speed of "real time", and on devices with a CPU - to perform synthesis in an acceptable time.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 11
Last 30 days: 0