Детальная информация
Название | Особенности применения методов глубокого обучения для синтеза речи: выпускная квалификационная работа бакалавра: направление 11.03.02 «Инфокоммуникационные технологии и системы связи» ; образовательная программа 11.03.02_01 «Системы мобильной связи» |
---|---|
Авторы | Симоненко Ульяна Дмитриевна |
Научный руководитель | Макаров Сергей Борисович |
Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт электроники и телекоммуникаций |
Выходные сведения | Санкт-Петербург, 2023 |
Коллекция | Выпускные квалификационные работы ; Общая коллекция |
Тематика | синтез речи ; нейронная сеть ; генеративно-состязательная сеть ; свёрточная нейронная сеть ; архитектура сети ; метрика ; мел-спектрограмма ; производительность ; speech synthesis ; neural network ; generative-adjuncial network ; convolutional neural network ; network architecture ; metric ; chalk-spectrogram ; performance |
Тип документа | Выпускная квалификационная работа бакалавра |
Тип файла | |
Язык | Русский |
Уровень высшего образования | Бакалавриат |
Код специальности ФГОС | 11.03.02 |
Группа специальностей ФГОС | 110000 - Электроника, радиотехника и системы связи |
DOI | 10.18720/SPBPU/3/2023/vr/vr23-4543 |
Права доступа | Доступ по паролю из сети Интернет (чтение, печать) |
Ключ записи | ru\spstu\vkr\23980 |
Дата создания записи | 27.07.2023 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа | Анонимные пользователи |
---|---|
Сеть | Интернет |
Объект исследования – синтезированная речь. Цель работы – применение и анализ различных методов глубокого обучения для синтеза речи, выявление наиболее перспективной технологии для дальнейшей работы. В результате исследования было выбрано несколько подходов и с их помощью получены мел-спектрограммы сгенерированных фраз и сам синтезированный файл, на основе которого происходил дальнейший анализ качества полученного аудиофайла. В ходе анализа использовались следующие критерии: Mean Opinion Score (MOS), Mel Cepstral Distortion (MCD), Word Error Rate (WER) и скорость выполнения синтеза. На основе данных метрик было выполнено сравнение качества работы нейронных сетей. Результатом работы являются синтезированные файлы и выбор наиболее перспективного подхода, с которым возможна дальнейшая работа. Применение выбранной нейронной сети позволит решить ряд проблем в скорости и качестве синтеза речи при работе с навигаторами, средой для слабовидящих и в космической технике. Использовались открытые образовательные ресурсы и программы поиска и анализа информации. Использовались средства автоматизированной разработки python. Применено программное обеспечение python.
The given work is devoted to the application and analysis of various methods of deep learning for speech synthesis, identifying the most promising technology for further work. As a result of the study, several approaches were chosen and with their help, chalk spectrograms of the generated phrases and the synthesized file itself were obtained, on the basis of which the quality of the resulting audio file was further analyzed. The following criteria were used during the analysis: Mean Opinion Score (MOS), Mel Cepstral Distortion (MCD), Word Error Rate (WER) and synthesis speed. Based on these metrics, a comparison was made of the quality of neural networks. The result of the work are synthesized files and the choice of the most promising approach with which further work is possible. The use of the selected neural network will allow solving a number of problems in the speed and quality of speech synthesis when working with navigators, the environment for the visually impaired and in space technology. Open educational resources and programs for searching and analyzing information were used. python automated development tools were used. Applied python software.
Место доступа | Группа пользователей | Действие |
---|---|---|
Локальная сеть ИБК СПбПУ | Все |
|
Интернет | Авторизованные пользователи СПбПУ |
|
Интернет | Анонимные пользователи |
|
Количество обращений: 37
За последние 30 дней: 9