Multi-channel transformer: A transformer-based model for multi-speaker speech recognition

Fadeeva, E. S.; Ershov, V. A.

Details

Title	Multi-channel transformer: A transformer-based model for multi-speaker speech recognition // Информатика, телекоммуникации и управление. – 2022. – С. 73-85
Creators	Fadeeva E. S.; Ershov V. A.
Organization	The Conference on Software Engineering and Information Management (SEIM-2022)
Imprint	2022
Collection	Общая коллекция
Subjects	Радиоэлектроника; Искусственный интеллект. Экспертные системы; multichannel transformers; multi-voice speech; multi-voice speech recognition; transform models; speech separation; voice technologies; transform architecture; многоканальные трансформеры; многоголосная речь; распознавание многоголосной речи; трансформерные модели; разделение речи; голосовые технологии; трансформенная архитектура
UDC	004.8
LBC	32.813
Document type	Article, report
File type	PDF
Language	English
DOI	10.18721/JCSTCS.15406
Rights	Свободный доступ из сети Интернет (чтение, печать, копирование)
Record key	RU\SPSTU\edoc\70549
Record create date	4/21/2023

Allowed Actions

Read Download (0.8 Mb)

Group	Anonymous
Network	Internet

Most of the modern approaches to multi-speaker speech recognition are either not applicable in case of overlapping speech or require a lot of time to run, which can be critical, for example, in case of real-time speech recognition. In this paper, a transformer-based end-to-end model for overlapping speech recognition is presented. It is implemented by using a generalization of the standard approach to speech recognition. The introduced model achieves results comparable in quality to modern state-of-the-art models, but requires less model calls, which speeds up the inference. In addition, a procedure for generating synthetic data for model training is described. This procedure allows to compensate for the lack of real multi-speaker speech training data by creating a stream of data from the initial collection.

Многие современные подходы для решения задачи распознавания многоголосной речи либо не предназначены для работы с пересекающейся речью, либо требуют много времени для запуска, что может быть критичным, например, в случае распознавания речи в реальном времени. В статье предложена трансформерная end-to-end модель для распознавания многоголосной речи с возможными пересечениями. Предложенная архитектура является обобщением архитектуры из стандартного подхода к распознаванию речи. Такая модель позволяет достичь результатов, сопоставимых по качеству с современными решениями, но требует меньше запусков модели для получения текстового распознавания многоголосной речи, что ускоряет время работы такой системы. Описана процедура генерации синтетических данных для обучения модели. Эта процедура позволяет компенсировать отсутствие реальных данных для обучения модели для распознавания многоголосной речи путем создания потока данных из первоначального набора.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	All

Access count: 161
Last 30 days: 12

Detailed usage statistics