ResNet-SV: Fast and accurate speaker verification with a multi-layer cascade attention mechanism

Aliyev, A. A.; Molodyakov, S. A.

Details

Title	ResNet-SV: Fast and accurate speaker verification with a multi-layer cascade attention mechanism // Информатика, телекоммуникации и управление. – 2025. – Т. 18, № 1. — С. 60-71
Creators	Aliyev A. A. ; Molodyakov S. A.
Imprint	2025
Collection	Общая коллекция
Subjects	Радиоэлектроника ; Искусственный интеллект. Экспертные системы ; speaker verification (cybernetics) ; cascading mechanisms of attention ; speaker identification (cybernetics) ; voice biometrics ; convolutional neural networks ; speech processing ; ResNet-SV ; верификация спикеров (кибернетика) ; каскадные механизмы внимания ; идентификация спикеров (кибернетика) ; голосовая биометрия ; сверточные нейронные сети ; обработка речи
UDC	004.8
LBC	32.813
Document type	Article, report
File type	PDF
Language	English
DOI	10.18721/JCSTCS.18105
Rights	Свободный доступ из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	RU\SPSTU\edoc\75851
Record create date	4/25/2025

Allowed Actions

Read Download (0.5 Mb)

Group	Anonymous
Network	Internet

One of the most challenging issues of voice biometrics rapid development is the need to develop methods that can combine speed and accuracy. Traditional solutions tend to choose a compromise between these two aspects, which either complicates the speaker verification process or reduces accuracy, especially under real-world conditions in which background noise and fluctuation in speech are substantial obstacles. This paper examines modern approaches and their architectural features. The architecture is based on ResNet, originally designed for computer vision tasks, which was modified and adapted for optimal performance in speech processing. The proposed modification method based on a multi-layer cascade attention mechanism for feature extraction from convolutional blocks is described in detail. This modification allows using fewer layers for feature extraction, thereby increasing the speed of the model, and allows to deal more effectively with the noise in the audio signal. The paper concludes with the model parameters used in the training process, as well as key metrics such as EER and minDCF computed on the VoxCeleb1 dataset. The results are compared with solutions built on other architectures. Through experimentation, the authors were able to achieve a high level of accuracy, with a smaller number of the neural network model parameters. This work brings us closer to a wider application of voice biometric systems in various scenarios.

Одной из самых сложных проблем быстрого развития голосовой биометрии является необходимость разработки методов, способных сочетать скорость и точность. Традиционные решения, как правило, выбирают компромисс между этими двумя аспектами, что приводит либо к усложнению процесса верификации спикеров, либо к снижению точности, особенно в реальных условиях, когда фоновый шум и колебания речи являются существенными препятствиями. В данной статье рассматриваются современные подходы и их архитектурные особенности. Основой для разработки архитектуры послужила ResNet, изначально предназначенная для задач компьютерного зрения, которая была модифицирована и адаптирована для оптимальной работы в области обработки речи. Подробно описывается предложенный метод модификации на основе многослойного каскадного механизма внимания для извлечения признаков из сверточных блоков. Такая модификация позволяет использовать меньшее количество слоев для извлечения признаков, тем самым увеличивая скорость работы модели, а также позволяет более эффективно бороться с возникшими шумами в аудиосигнале. В заключении статьи представлены параметры модели, использованные в процессе обучения, а также ключевые метрики, такие как EER и minDCF, рассчитанные на выборке данных VoxCeleb1. Результаты сравниваются с решениями, построенными на других архитектурах. В ходе экспериментов авторам удалось достичь высокого уровня точности при меньшем количестве параметров модели нейронной сети. Эта работа приближает нас к более широкому применению систем голосовой биометрии в различных сценариях.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	All

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. — Электрон. журнал. — Периодичность: 4 раза в год. — Свободный доступ из сети Интернет (чтение, печать, копирование). — Текст: электронный

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. Т. 18, № 1, 2025. — 1 файл (10,7 Мб). — Свободный доступ из сети Интернет (чтение, печать, копирование). — <URL:http://elib.spbstu.ru/dl/2/j25-123.pdf>.

Access count: 13
Last 30 days: 13

Detailed usage statistics