Details

Title Повышение качества верификации диктора в телефонном канале: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_02 «Математические методы анализа и визуализации данных»
Creators Аникин Александр Алексеевич
Scientific adviser Чуканов Вячеслав Сергеевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Imprint Санкт-Петербург, 2024
Collection Выпускные квалификационные работы; Общая коллекция
Subjects машинное обучение; верификация дик­тора; предварительное обучение; machine learning; speaker verification; pre-training
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 01.04.02
Speciality group (FGOS) 010000 - Математика и механика
DOI 10.18720/SPBPU/3/2024/vr/vr24-5715
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key ru\spstu\vkr\31402
Record create date 8/6/2024

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

Целью данной работы является разработка модели машинного обучения для задачи верификации диктора, которая позволит применять модель в телефонном канале, при этом требуется сохранить качество на микрофонных данных близкое к уровню современных систем верификации диктора. В данной работе было проведено исследование современных систем, представлены их сильные и слабые стороны. По результатам исследования была выбрана архитектура сети wav2vec, также была предложена модификация функции ошибки. Полученная модель сравнивается с моделью wav2vec base, которую опубликовали авторы архитектуры. Предлагаемая модель обходит в лучшем случае примерно на 5\% EER модель wav2vec base на телефонном канале, при этом потери на микрофонном канале составляют не более 0.5\% EER.

The goal of this work is to develop a machine learning model for the speaker verification task, which allows the model to be used in a telephone channel, while maintaining the quality of microphone data close to the level of modern speaker verification systems. In this work, a study of modern systems was carried out, their strengths and weaknesses were presented. Based on the results of the study, the wav2vec network architecture was chosen, and a modification of the error function was also proposed. The resulting model is compared with the wav2vec base model, which was published by the authors of the architecture. The proposed model at best outperforms the wav2vec base model on the telephone channel by about 5\% EER, while the losses on the microphone channel are no more than 0.5\% EER.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 0 
Last 30 days: 0

Detailed usage statistics