Таблица | Карточка | RUSMARC | |
Разрешенные действия: –
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа: Анонимные пользователи Сеть: Интернет |
Аннотация
В ходе магистерской диссертации разработана модель "Seq2seq-CWRNN-Attention" - сетевая архитектура синтеза речи на основе модели "tacotron". Вначале текстовые символы преобразуются в Мел-спектр, а затем вокодером "Гриффина-Лима" синтезируется форма речевой волны. Разработанная система является модификацией архитектуры модели "tacotron". Специальная заводная ("clockwork") РНС используется в кодере для уменьшения числа параметров обучения, РНС типа "MultiLSTM" используется для выделения признаков. Некоторая часть подсистем в кодировщике убрана в целях упрощения модели. В системе декодирования используется НС LSTM для повышения точности.
This work describes Seq2seq-CWRNN-Attention, a sequence to sequence network architecture for end-to-end speech synthesis based on tacotron. Characters are mapped to the Mel spectrum through the system, and then the waveform is synthesized by the Griffin-Lim vocoder. The system is greatly optimized for the tacotron model architecture: Clockwork RNN is used in the encoder to reduce the number of training parameters; MultiLSTM is used instead of HighwayNet and the residual connection in the encoder is removed, which simplifies the model; used LSTM decoder improves mapping accuracy.
Права на использование объекта хранения
Место доступа | Группа пользователей | Действие | ||||
---|---|---|---|---|---|---|
Локальная сеть ИБК СПбПУ | Все | |||||
Интернет | Авторизованные пользователи СПбПУ | |||||
Интернет | Анонимные пользователи |
Статистика использования
Количество обращений: 47
За последние 30 дней: 0 Подробная статистика |