Детальная информация

Название: Разработка системы синтеза речи с использованием методов глубокого обучения: выпускная квалификационная работа магистра: 09.04.01 - Информатика и вычислительная техника ; 09.04.01_18 - Встраиваемые системы управления
Авторы: Чжу Сяосюй
Научный руководитель: Никитин Кирилл Вячеславович
Другие авторы: Новопашенный Андрей Гелиевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2019
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Нейронные сети; Вокодеры; Кодирующие и декодирующие устройства; Речь — Анализ и синтез; синтез речи
УДК: 004.312.26(043.3); 004.934.5(043.3)
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.01
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2019/vr/vr19-691
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\2430

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В ходе магистерской диссертации разработана модель "Seq2seq-CWRNN-Attention" - сетевая архитектура синтеза речи на основе модели "tacotron". Вначале текстовые символы преобразуются в Мел-спектр, а затем вокодером "Гриффина-Лима" синтезируется форма речевой волны. Разработанная система является модификацией архитектуры модели "tacotron". Специальная заводная ("clockwork") РНС используется в кодере для уменьшения числа параметров обучения, РНС типа "MultiLSTM" используется для выделения признаков. Некоторая часть подсистем в кодировщике убрана в целях упрощения модели. В системе декодирования используется НС LSTM для повышения точности.

This work describes Seq2seq-CWRNN-Attention, a sequence to sequence network architecture for end-to-end speech synthesis based on tacotron. Characters are mapped to the Mel spectrum through the system, and then the waveform is synthesized by the Griffin-Lim vocoder. The system is greatly optimized for the tacotron model architecture: Clockwork RNN is used in the encoder to reduce the number of training parameters; MultiLSTM is used instead of HighwayNet and the residual connection in the encoder is removed, which simplifies the model; used LSTM decoder improves mapping accuracy.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 46
За последние 30 дней: 0
Подробная статистика