Details

Title Multi-channel transformer: A transformer-based model for multi-speaker speech recognition // Информатика, телекоммуникации и управление. – 2022. – С. 73-85
Creators Fadeeva E. S.; Ershov V. A.
Organization The Conference on Software Engineering and Information Management (SEIM-2022)
Imprint 2022
Collection Общая коллекция
Subjects Радиоэлектроника; Искусственный интеллект. Экспертные системы; multichannel transformers; multi-voice speech; multi-voice speech recognition; transform models; speech separation; voice technologies; transform architecture; многоканальные трансформеры; многоголосная речь; распознавание многоголосной речи; трансформерные модели; разделение речи; голосовые технологии; трансформенная архитектура
UDC 004.8
LBC 32.813
Document type Article, report
File type PDF
Language English
DOI 10.18721/JCSTCS.15406
Rights Свободный доступ из сети Интернет (чтение, печать, копирование)
Record key RU\SPSTU\edoc\70549
Record create date 4/21/2023

Allowed Actions

Read Download (0.8 Mb)

Group Anonymous
Network Internet

Most of the modern approaches to multi-speaker speech recognition are either not applicable in case of overlapping speech or require a lot of time to run, which can be critical, for example, in case of real-time speech recognition. In this paper, a transformer-based end-to-end model for overlapping speech recognition is presented. It is implemented by using a generalization of the standard approach to speech recognition. The introduced model achieves results comparable in quality to modern state-of-the-art models, but requires less model calls, which speeds up the inference. In addition, a procedure for generating synthetic data for model training is described. This procedure allows to compensate for the lack of real multi-speaker speech training data by creating a stream of data from the initial collection.

Многие современные подходы для решения задачи распознавания многоголосной речи либо не предназначены для работы с пересекающейся речью, либо требуют много времени для запуска, что может быть критичным, например, в случае распознавания речи в реальном времени. В статье предложена трансформерная end-to-end модель для распознавания многоголосной речи с возможными пересечениями. Предложенная архитектура является обобщением архитектуры из стандартного подхода к распознаванию речи. Такая модель позволяет достичь результатов, сопоставимых по качеству с современными решениями, но требует меньше запусков модели для получения текстового распознавания многоголосной речи, что ускоряет время работы такой системы. Описана процедура генерации синтетических данных для обучения модели. Эта процедура позволяет компенсировать отсутствие реальных данных для обучения модели для распознавания многоголосной речи путем создания потока данных из первоначального набора.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet All

Access count: 161 
Last 30 days: 12

Detailed usage statistics