Детальная информация
Название | Повышение качества верификации диктора в телефонном канале: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_02 «Математические методы анализа и визуализации данных» |
---|---|
Авторы | Аникин Александр Алексеевич |
Научный руководитель | Чуканов Вячеслав Сергеевич |
Организация | Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт |
Выходные сведения | Санкт-Петербург, 2024 |
Коллекция | Выпускные квалификационные работы; Общая коллекция |
Тематика | машинное обучение; верификация диктора; предварительное обучение; machine learning; speaker verification; pre-training |
Тип документа | Выпускная квалификационная работа магистра |
Тип файла | |
Язык | Русский |
Уровень высшего образования | Магистратура |
Код специальности ФГОС | 01.04.02 |
Группа специальностей ФГОС | 010000 - Математика и механика |
DOI | 10.18720/SPBPU/3/2024/vr/vr24-5715 |
Права доступа | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Дополнительно | Новинка |
Ключ записи | ru\spstu\vkr\31402 |
Дата создания записи | 06.08.2024 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа | Анонимные пользователи |
---|---|
Сеть | Интернет |
Целью данной работы является разработка модели машинного обучения для задачи верификации диктора, которая позволит применять модель в телефонном канале, при этом требуется сохранить качество на микрофонных данных близкое к уровню современных систем верификации диктора. В данной работе было проведено исследование современных систем, представлены их сильные и слабые стороны. По результатам исследования была выбрана архитектура сети wav2vec, также была предложена модификация функции ошибки. Полученная модель сравнивается с моделью wav2vec base, которую опубликовали авторы архитектуры. Предлагаемая модель обходит в лучшем случае примерно на 5\% EER модель wav2vec base на телефонном канале, при этом потери на микрофонном канале составляют не более 0.5\% EER.
The goal of this work is to develop a machine learning model for the speaker verification task, which allows the model to be used in a telephone channel, while maintaining the quality of microphone data close to the level of modern speaker verification systems. In this work, a study of modern systems was carried out, their strengths and weaknesses were presented. Based on the results of the study, the wav2vec network architecture was chosen, and a modification of the error function was also proposed. The resulting model is compared with the wav2vec base model, which was published by the authors of the architecture. The proposed model at best outperforms the wav2vec base model on the telephone channel by about 5\% EER, while the losses on the microphone channel are no more than 0.5\% EER.
Место доступа | Группа пользователей | Действие |
---|---|---|
Локальная сеть ИБК СПбПУ | Все |
|
Интернет | Авторизованные пользователи СПбПУ |
|
Интернет | Анонимные пользователи |
|
Количество обращений: 0
За последние 30 дней: 0