Details
Title | Multi-channel transformer: A transformer-based model for multi-speaker speech recognition // Информатика, телекоммуникации и управление. – 2022. – С. 73-85 |
---|---|
Creators | Fadeeva E. S.; Ershov V. A. |
Organization | The Conference on Software Engineering and Information Management (SEIM-2022) |
Imprint | 2022 |
Collection | Общая коллекция |
Subjects | Радиоэлектроника; Искусственный интеллект. Экспертные системы; multichannel transformers; multi-voice speech; multi-voice speech recognition; transform models; speech separation; voice technologies; transform architecture; многоканальные трансформеры; многоголосная речь; распознавание многоголосной речи; трансформерные модели; разделение речи; голосовые технологии; трансформенная архитектура |
UDC | 004.8 |
LBC | 32.813 |
Document type | Article, report |
File type | |
Language | English |
DOI | 10.18721/JCSTCS.15406 |
Rights | Свободный доступ из сети Интернет (чтение, печать, копирование) |
Record key | RU\SPSTU\edoc\70549 |
Record create date | 4/21/2023 |
Most of the modern approaches to multi-speaker speech recognition are either not applicable in case of overlapping speech or require a lot of time to run, which can be critical, for example, in case of real-time speech recognition. In this paper, a transformer-based end-to-end model for overlapping speech recognition is presented. It is implemented by using a generalization of the standard approach to speech recognition. The introduced model achieves results comparable in quality to modern state-of-the-art models, but requires less model calls, which speeds up the inference. In addition, a procedure for generating synthetic data for model training is described. This procedure allows to compensate for the lack of real multi-speaker speech training data by creating a stream of data from the initial collection.
Многие современные подходы для решения задачи распознавания многоголосной речи либо не предназначены для работы с пересекающейся речью, либо требуют много времени для запуска, что может быть критичным, например, в случае распознавания речи в реальном времени. В статье предложена трансформерная end-to-end модель для распознавания многоголосной речи с возможными пересечениями. Предложенная архитектура является обобщением архитектуры из стандартного подхода к распознаванию речи. Такая модель позволяет достичь результатов, сопоставимых по качеству с современными решениями, но требует меньше запусков модели для получения текстового распознавания многоголосной речи, что ускоряет время работы такой системы. Описана процедура генерации синтетических данных для обучения модели. Эта процедура позволяет компенсировать отсутствие реальных данных для обучения модели для распознавания многоголосной речи путем создания потока данных из первоначального набора.
Access count: 161
Last 30 days: 12