Детальная информация
Название | Multi-channel transformer: A transformer-based model for multi-speaker speech recognition // Информатика, телекоммуникации и управление. – 2022. – С. 73-85 |
---|---|
Авторы | Fadeeva E. S.; Ershov V. A. |
Организация | The Conference on Software Engineering and Information Management (SEIM-2022) |
Выходные сведения | 2022 |
Коллекция | Общая коллекция |
Тематика | Радиоэлектроника; Искусственный интеллект. Экспертные системы; multichannel transformers; multi-voice speech; multi-voice speech recognition; transform models; speech separation; voice technologies; transform architecture; многоканальные трансформеры; многоголосная речь; распознавание многоголосной речи; трансформерные модели; разделение речи; голосовые технологии; трансформенная архитектура |
УДК | 004.8 |
ББК | 32.813 |
Тип документа | Статья, доклад |
Тип файла | |
Язык | Английский |
DOI | 10.18721/JCSTCS.15406 |
Права доступа | Свободный доступ из сети Интернет (чтение, печать, копирование) |
Ключ записи | RU\SPSTU\edoc\70549 |
Дата создания записи | 21.04.2023 |
Most of the modern approaches to multi-speaker speech recognition are either not applicable in case of overlapping speech or require a lot of time to run, which can be critical, for example, in case of real-time speech recognition. In this paper, a transformer-based end-to-end model for overlapping speech recognition is presented. It is implemented by using a generalization of the standard approach to speech recognition. The introduced model achieves results comparable in quality to modern state-of-the-art models, but requires less model calls, which speeds up the inference. In addition, a procedure for generating synthetic data for model training is described. This procedure allows to compensate for the lack of real multi-speaker speech training data by creating a stream of data from the initial collection.
Многие современные подходы для решения задачи распознавания многоголосной речи либо не предназначены для работы с пересекающейся речью, либо требуют много времени для запуска, что может быть критичным, например, в случае распознавания речи в реальном времени. В статье предложена трансформерная end-to-end модель для распознавания многоголосной речи с возможными пересечениями. Предложенная архитектура является обобщением архитектуры из стандартного подхода к распознаванию речи. Такая модель позволяет достичь результатов, сопоставимых по качеству с современными решениями, но требует меньше запусков модели для получения текстового распознавания многоголосной речи, что ускоряет время работы такой системы. Описана процедура генерации синтетических данных для обучения модели. Эта процедура позволяет компенсировать отсутствие реальных данных для обучения модели для распознавания многоголосной речи путем создания потока данных из первоначального набора.
Количество обращений: 166
За последние 30 дней: 16