Детальная информация

Название Повышение качества верификации диктора в телефонном канале: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_02 «Математические методы анализа и визуализации данных»
Авторы Аникин Александр Алексеевич
Научный руководитель Чуканов Вячеслав Сергеевич
Организация Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Выходные сведения Санкт-Петербург, 2024
Коллекция Выпускные квалификационные работы; Общая коллекция
Тематика машинное обучение; верификация дик­тора; предварительное обучение; machine learning; speaker verification; pre-training
Тип документа Выпускная квалификационная работа магистра
Тип файла PDF
Язык Русский
Уровень высшего образования Магистратура
Код специальности ФГОС 01.04.02
Группа специальностей ФГОС 010000 - Математика и механика
DOI 10.18720/SPBPU/3/2024/vr/vr24-5715
Права доступа Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\31402
Дата создания записи 06.08.2024

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Целью данной работы является разработка модели машинного обучения для задачи верификации диктора, которая позволит применять модель в телефонном канале, при этом требуется сохранить качество на микрофонных данных близкое к уровню современных систем верификации диктора. В данной работе было проведено исследование современных систем, представлены их сильные и слабые стороны. По результатам исследования была выбрана архитектура сети wav2vec, также была предложена модификация функции ошибки. Полученная модель сравнивается с моделью wav2vec base, которую опубликовали авторы архитектуры. Предлагаемая модель обходит в лучшем случае примерно на 5\% EER модель wav2vec base на телефонном канале, при этом потери на микрофонном канале составляют не более 0.5\% EER.

The goal of this work is to develop a machine learning model for the speaker verification task, which allows the model to be used in a telephone channel, while maintaining the quality of microphone data close to the level of modern speaker verification systems. In this work, a study of modern systems was carried out, their strengths and weaknesses were presented. Based on the results of the study, the wav2vec network architecture was chosen, and a modification of the error function was also proposed. The resulting model is compared with the wav2vec base model, which was published by the authors of the architecture. The proposed model at best outperforms the wav2vec base model on the telephone channel by about 5\% EER, while the losses on the microphone channel are no more than 0.5\% EER.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ
Прочитать Печать Загрузить
Интернет Анонимные пользователи

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика