Details
Title | ResNet-SV: Fast and accurate speaker verification with a multi-layer cascade attention mechanism // Информатика, телекоммуникации и управление. – 2025. – Т. 18, № 1. — С. 60-71 |
---|---|
Creators | Aliyev A. A. ; Molodyakov S. A. |
Imprint | 2025 |
Collection | Общая коллекция |
Subjects | Радиоэлектроника ; Искусственный интеллект. Экспертные системы ; speaker verification (cybernetics) ; cascading mechanisms of attention ; speaker identification (cybernetics) ; voice biometrics ; convolutional neural networks ; speech processing ; ResNet-SV ; верификация спикеров (кибернетика) ; каскадные механизмы внимания ; идентификация спикеров (кибернетика) ; голосовая биометрия ; сверточные нейронные сети ; обработка речи |
UDC | 004.8 |
LBC | 32.813 |
Document type | Article, report |
File type | |
Language | English |
DOI | 10.18721/JCSTCS.18105 |
Rights | Свободный доступ из сети Интернет (чтение, печать, копирование) |
Additionally | New arrival |
Record key | RU\SPSTU\edoc\75851 |
Record create date | 4/25/2025 |
One of the most challenging issues of voice biometrics rapid development is the need to develop methods that can combine speed and accuracy. Traditional solutions tend to choose a compromise between these two aspects, which either complicates the speaker verification process or reduces accuracy, especially under real-world conditions in which background noise and fluctuation in speech are substantial obstacles. This paper examines modern approaches and their architectural features. The architecture is based on ResNet, originally designed for computer vision tasks, which was modified and adapted for optimal performance in speech processing. The proposed modification method based on a multi-layer cascade attention mechanism for feature extraction from convolutional blocks is described in detail. This modification allows using fewer layers for feature extraction, thereby increasing the speed of the model, and allows to deal more effectively with the noise in the audio signal. The paper concludes with the model parameters used in the training process, as well as key metrics such as EER and minDCF computed on the VoxCeleb1 dataset. The results are compared with solutions built on other architectures. Through experimentation, the authors were able to achieve a high level of accuracy, with a smaller number of the neural network model parameters. This work brings us closer to a wider application of voice biometric systems in various scenarios.
Одной из самых сложных проблем быстрого развития голосовой биометрии является необходимость разработки методов, способных сочетать скорость и точность. Традиционные решения, как правило, выбирают компромисс между этими двумя аспектами, что приводит либо к усложнению процесса верификации спикеров, либо к снижению точности, особенно в реальных условиях, когда фоновый шум и колебания речи являются существенными препятствиями. В данной статье рассматриваются современные подходы и их архитектурные особенности. Основой для разработки архитектуры послужила ResNet, изначально предназначенная для задач компьютерного зрения, которая была модифицирована и адаптирована для оптимальной работы в области обработки речи. Подробно описывается предложенный метод модификации на основе многослойного каскадного механизма внимания для извлечения признаков из сверточных блоков. Такая модификация позволяет использовать меньшее количество слоев для извлечения признаков, тем самым увеличивая скорость работы модели, а также позволяет более эффективно бороться с возникшими шумами в аудиосигнале. В заключении статьи представлены параметры модели, использованные в процессе обучения, а также ключевые метрики, такие как EER и minDCF, рассчитанные на выборке данных VoxCeleb1. Результаты сравниваются с решениями, построенными на других архитектурах. В ходе экспериментов авторам удалось достичь высокого уровня точности при меньшем количестве параметров модели нейронной сети. Эта работа приближает нас к более широкому применению систем голосовой биометрии в различных сценариях.
Access count: 13
Last 30 days: 13