Разработка системы синтеза речи с использованием методов глубокого обучения: выпускная квалификационная работа магистра: 09.04.01 - Информатика и вычислительная техника ; 09.04.01_18 - Встраиваемые системы управления

Чжу Сяосюй

Details

	Table	Card	RUSMARC

Title:	Разработка системы синтеза речи с использованием методов глубокого обучения: выпускная квалификационная работа магистра: 09.04.01 - Информатика и вычислительная техника ; 09.04.01_18 - Встраиваемые системы управления
Creators:	Чжу Сяосюй
Scientific adviser:	Никитин Кирилл Вячеславович
Other creators:	Новопашенный Андрей Гелиевич
Organization:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint:	Санкт-Петербург, 2019
Collection:	Выпускные квалификационные работы; Общая коллекция
Subjects:	Нейронные сети; Вокодеры; Кодирующие и декодирующие устройства; Речь — Анализ и синтез; синтез речи
UDC:	004.312.26(043.3); 004.934.5(043.3)
Document type:	Master graduation qualification work
File type:	PDF
Language:	Russian
Level of education:	Master
Speciality code (FGOS):	09.04.01
Speciality group (FGOS):	090000 - Информатика и вычислительная техника
Links:	Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI:	10.18720/SPBPU/3/2019/vr/vr19-691
Rights:	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key:	ru\spstu\vkr\2430

Allowed Actions: –

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В ходе магистерской диссертации разработана модель "Seq2seq-CWRNN-Attention" - сетевая архитектура синтеза речи на основе модели "tacotron". Вначале текстовые символы преобразуются в Мел-спектр, а затем вокодером "Гриффина-Лима" синтезируется форма речевой волны. Разработанная система является модификацией архитектуры модели "tacotron". Специальная заводная ("clockwork") РНС используется в кодере для уменьшения числа параметров обучения, РНС типа "MultiLSTM" используется для выделения признаков. Некоторая часть подсистем в кодировщике убрана в целях упрощения модели. В системе декодирования используется НС LSTM для повышения точности.

This work describes Seq2seq-CWRNN-Attention, a sequence to sequence network architecture for end-to-end speech synthesis based on tacotron. Characters are mapped to the Mel spectrum through the system, and then the waveform is synthesized by the Griffin-Lim vocoder. The system is greatly optimized for the tacotron model architecture: Clockwork RNN is used in the encoder to reduce the number of training parameters; MultiLSTM is used instead of HighwayNet and the residual connection in the encoder is removed, which simplifies the model; used LSTM decoder improves mapping accuracy.

Document access rights

	Network		User group		Action
	ILC SPbPU Local Network		All
	Internet		Authorized users SPbPU
	Internet		Anonymous

Usage statistics

Access count: 46
Last 30 days: 0
Detailed usage statistics