Multi-channel transformer: A transformer-based model for multi-speaker speech recognition

Fadeeva, E. S.; Ershov, V. A.

Детальная информация

Название	Multi-channel transformer: A transformer-based model for multi-speaker speech recognition // Информатика, телекоммуникации и управление. – 2022. – С. 73-85
Авторы	Fadeeva E. S.; Ershov V. A.
Организация	The Conference on Software Engineering and Information Management (SEIM-2022)
Выходные сведения	2022
Коллекция	Общая коллекция
Тематика	Радиоэлектроника; Искусственный интеллект. Экспертные системы; multichannel transformers; multi-voice speech; multi-voice speech recognition; transform models; speech separation; voice technologies; transform architecture; многоканальные трансформеры; многоголосная речь; распознавание многоголосной речи; трансформерные модели; разделение речи; голосовые технологии; трансформенная архитектура
УДК	004.8
ББК	32.813
Тип документа	Статья, доклад
Тип файла	PDF
Язык	Английский
DOI	10.18721/JCSTCS.15406
Права доступа	Свободный доступ из сети Интернет (чтение, печать, копирование)
Ключ записи	RU\SPSTU\edoc\70549
Дата создания записи	21.04.2023

Разрешенные действия

Прочитать Загрузить (0,8 Мб)

Группа	Анонимные пользователи
Сеть	Интернет

Most of the modern approaches to multi-speaker speech recognition are either not applicable in case of overlapping speech or require a lot of time to run, which can be critical, for example, in case of real-time speech recognition. In this paper, a transformer-based end-to-end model for overlapping speech recognition is presented. It is implemented by using a generalization of the standard approach to speech recognition. The introduced model achieves results comparable in quality to modern state-of-the-art models, but requires less model calls, which speeds up the inference. In addition, a procedure for generating synthetic data for model training is described. This procedure allows to compensate for the lack of real multi-speaker speech training data by creating a stream of data from the initial collection.

Многие современные подходы для решения задачи распознавания многоголосной речи либо не предназначены для работы с пересекающейся речью, либо требуют много времени для запуска, что может быть критичным, например, в случае распознавания речи в реальном времени. В статье предложена трансформерная end-to-end модель для распознавания многоголосной речи с возможными пересечениями. Предложенная архитектура является обобщением архитектуры из стандартного подхода к распознаванию речи. Такая модель позволяет достичь результатов, сопоставимых по качеству с современными решениями, но требует меньше запусков модели для получения текстового распознавания многоголосной речи, что ускоряет время работы такой системы. Описана процедура генерации синтетических данных для обучения модели. Эта процедура позволяет компенсировать отсутствие реальных данных для обучения модели для распознавания многоголосной речи путем создания потока данных из первоначального набора.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Все

Количество обращений: 166
За последние 30 дней: 16

Подробная статистика