Details

Title ResNet-SV: Fast and accurate speaker verification with a multi-layer cascade attention mechanism // Информатика, телекоммуникации и управление. – 2025. – Т. 18, № 1. — С. 60-71
Creators Aliyev A. A. ; Molodyakov S. A.
Imprint 2025
Collection Общая коллекция
Subjects Радиоэлектроника ; Искусственный интеллект. Экспертные системы ; speaker verification (cybernetics) ; cascading mechanisms of attention ; speaker identification (cybernetics) ; voice biometrics ; convolutional neural networks ; speech processing ; ResNet-SV ; верификация спикеров (кибернетика) ; каскадные механизмы внимания ; идентификация спикеров (кибернетика) ; голосовая биометрия ; сверточные нейронные сети ; обработка речи
UDC 004.8
LBC 32.813
Document type Article, report
File type PDF
Language English
DOI 10.18721/JCSTCS.18105
Rights Свободный доступ из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key RU\SPSTU\edoc\75851
Record create date 4/25/2025

Allowed Actions

Read Download (0.5 Mb)

Group Anonymous
Network Internet

One of the most challenging issues of voice biometrics rapid development is the need to develop methods that can combine speed and accuracy. Traditional solutions tend to choose a compromise between these two aspects, which either complicates the speaker verification process or reduces accuracy, especially under real-world conditions in which background noise and fluctuation in speech are substantial obstacles. This paper examines modern approaches and their architectural features. The architecture is based on ResNet, originally designed for computer vision tasks, which was modified and adapted for optimal performance in speech processing. The proposed modification method based on a multi-layer cascade attention mechanism for feature extraction from convolutional blocks is described in detail. This modification allows using fewer layers for feature extraction, thereby increasing the speed of the model, and allows to deal more effectively with the noise in the audio signal. The paper concludes with the model parameters used in the training process, as well as key metrics such as EER and minDCF computed on the VoxCeleb1 dataset. The results are compared with solutions built on other architectures. Through experimentation, the authors were able to achieve a high level of accuracy, with a smaller number of the neural network model parameters. This work brings us closer to a wider application of voice biometric systems in various scenarios.

Одной из самых сложных проблем быстрого развития голосовой биометрии является необходимость разработки методов, способных сочетать скорость и точность. Традиционные решения, как правило, выбирают компромисс между этими двумя аспектами, что приводит либо к усложнению процесса верификации спикеров, либо к снижению точности, особенно в реальных условиях, когда фоновый шум и колебания речи являются существенными препятствиями. В данной статье рассматриваются современные подходы и их архитектурные особенности. Основой для разработки архитектуры послужила ResNet, изначально предназначенная для задач компьютерного зрения, которая была модифицирована и адаптирована для оптимальной работы в области обработки речи. Подробно описывается предложенный метод модификации на основе многослойного каскадного механизма внимания для извлечения признаков из сверточных блоков. Такая модификация позволяет использовать меньшее количество слоев для извлечения признаков, тем самым увеличивая скорость работы модели, а также позволяет более эффективно бороться с возникшими шумами в аудиосигнале. В заключении статьи представлены параметры модели, использованные в процессе обучения, а также ключевые метрики, такие как EER и minDCF, рассчитанные на выборке данных VoxCeleb1. Результаты сравниваются с решениями, построенными на других архитектурах. В ходе экспериментов авторам удалось достичь высокого уровня точности при меньшем количестве параметров модели нейронной сети. Эта работа приближает нас к более широкому применению систем голосовой биометрии в различных сценариях.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet All

Access count: 13 
Last 30 days: 13

Detailed usage statistics