Детальная информация

Название: Разработка системы синтеза речи с использованием методов глубокого обучения: выпускная квалификационная работа магистра: 09.04.01 - Информатика и вычислительная техника ; 09.04.01_18 - Встраиваемые системы управления
Авторы: Чжу Сяосюй
Научный руководитель: Никитин Кирилл Вячеславович
Другие авторы: Новопашенный Андрей Гелиевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2019
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Нейронные сети; Вокодеры; Кодирующие и декодирующие устройства; Речь — Анализ и синтез; синтез речи
УДК: 004.312.26(043.3); 004.934.5(043.3)
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Код специальности ФГОС: 09.04.01
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: http://doi.org/10.18720/SPBPU/3/2019/vr/vr19-691; http://elib.spbstu.ru/dl/3/2019/vr/rev/vr19-691-o.pdf; http://elib.spbstu.ru/dl/3/2019/vr/rev/vr19-691-r.pdf; http://elib.spbstu.ru/dl/3/2019/vr/rev/vr19-691-a.pdf

Разрешенные действия: Прочитать Загрузить (2,9 Мб) Для чтения документа необходим Flash Player

Группа: Анонимные пользователи

Сеть: Локальная сеть ИБК СПбПУ

Аннотация

В ходе магистерской диссертации разработана модель "Seq2seq-CWRNN-Attention" - сетевая архитектура синтеза речи на основе модели "tacotron". Вначале текстовые символы преобразуются в Мел-спектр, а затем вокодером "Гриффина-Лима" синтезируется форма речевой волны. Разработанная система является модификацией архитектуры модели "tacotron". Специальная заводная ("clockwork") РНС используется в кодере для уменьшения числа параметров обучения, РНС типа "MultiLSTM" используется для выделения признаков. Некоторая часть подсистем в кодировщике убрана в целях упрощения модели. В системе декодирования используется НС LSTM для повышения точности.

This work describes Seq2seq-CWRNN-Attention, a sequence to sequence network architecture for end-to-end speech synthesis based on tacotron. Characters are mapped to the Mel spectrum through the system, and then the waveform is synthesized by the Griffin-Lim vocoder. The system is greatly optimized for the tacotron model architecture: Clockwork RNN is used in the encoder to reduce the number of training parameters; MultiLSTM is used instead of HighwayNet and the residual connection in the encoder is removed, which simplifies the model; used LSTM decoder improves mapping accuracy.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
-> Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Все Прочитать Печать Загрузить

Статистика использования документа

stat Количество обращений: 26
За последние 30 дней: 2
Подробная статистика