Details
Title | Повышение качества верификации диктора в телефонном канале: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_02 «Математические методы анализа и визуализации данных» |
---|---|
Creators | Аникин Александр Алексеевич |
Scientific adviser | Чуканов Вячеслав Сергеевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт |
Imprint | Санкт-Петербург, 2024 |
Collection | Выпускные квалификационные работы; Общая коллекция |
Subjects | машинное обучение; верификация диктора; предварительное обучение; machine learning; speaker verification; pre-training |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 01.04.02 |
Speciality group (FGOS) | 010000 - Математика и механика |
DOI | 10.18720/SPBPU/3/2024/vr/vr24-5715 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Additionally | New arrival |
Record key | ru\spstu\vkr\31402 |
Record create date | 8/6/2024 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Целью данной работы является разработка модели машинного обучения для задачи верификации диктора, которая позволит применять модель в телефонном канале, при этом требуется сохранить качество на микрофонных данных близкое к уровню современных систем верификации диктора. В данной работе было проведено исследование современных систем, представлены их сильные и слабые стороны. По результатам исследования была выбрана архитектура сети wav2vec, также была предложена модификация функции ошибки. Полученная модель сравнивается с моделью wav2vec base, которую опубликовали авторы архитектуры. Предлагаемая модель обходит в лучшем случае примерно на 5\% EER модель wav2vec base на телефонном канале, при этом потери на микрофонном канале составляют не более 0.5\% EER.
The goal of this work is to develop a machine learning model for the speaker verification task, which allows the model to be used in a telephone channel, while maintaining the quality of microphone data close to the level of modern speaker verification systems. In this work, a study of modern systems was carried out, their strengths and weaknesses were presented. Based on the results of the study, the wav2vec network architecture was chosen, and a modification of the error function was also proposed. The resulting model is compared with the wav2vec base model, which was published by the authors of the architecture. The proposed model at best outperforms the wav2vec base model on the telephone channel by about 5\% EER, while the losses on the microphone channel are no more than 0.5\% EER.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 0
Last 30 days: 0