Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
В ходе магистерской диссертации разработана модель "Seq2seq-CWRNN-Attention" - сетевая архитектура синтеза речи на основе модели "tacotron". Вначале текстовые символы преобразуются в Мел-спектр, а затем вокодером "Гриффина-Лима" синтезируется форма речевой волны. Разработанная система является модификацией архитектуры модели "tacotron". Специальная заводная ("clockwork") РНС используется в кодере для уменьшения числа параметров обучения, РНС типа "MultiLSTM" используется для выделения признаков. Некоторая часть подсистем в кодировщике убрана в целях упрощения модели. В системе декодирования используется НС LSTM для повышения точности.
This work describes Seq2seq-CWRNN-Attention, a sequence to sequence network architecture for end-to-end speech synthesis based on tacotron. Characters are mapped to the Mel spectrum through the system, and then the waveform is synthesized by the Griffin-Lim vocoder. The system is greatly optimized for the tacotron model architecture: Clockwork RNN is used in the encoder to reduce the number of training parameters; MultiLSTM is used instead of HighwayNet and the residual connection in the encoder is removed, which simplifies the model; used LSTM decoder improves mapping accuracy.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Usage statistics
Access count: 46
Last 30 days: 0 Detailed usage statistics |