Dataset creation for comprehensive performance evaluation of automatic speech recognition systems

Andrusenko, A. Yu.; Drobintsev, P. D.

Details

Title	Dataset creation for comprehensive performance evaluation of automatic speech recognition systems // Информатика, телекоммуникации и управление. – 2025. – Т. 18, № 2. — С. 33-44
Creators	Andrusenko A. Yu. ; Drobintsev P. D.
Imprint	2025
Collection	Общая коллекция
Subjects	Вычислительная техника ; Звуковой интерфейс ; automatic speech recognition ; datasets ; context offsets ; test datasets ; large language models ; neural networks ; ASR systems ; автоматическое распознавание речи ; наборы данных ; смещение контекста ; тестовые наборы данных ; большие языковые модели ; нейронные сети ; ASR системы
UDC	004.52
LBC	32.973-018.2
Document type	Article, report
File type	PDF
Language	English
DOI	10.18721/JCSTCS.18203
Rights	Свободный доступ из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	RU\SPSTU\edoc\77150
Record create date	10/15/2025

Allowed Actions

Read Download (0.6 Mb)

Group	Anonymous
Network	Internet

The performance evaluation of Automatic Speech Recognition (ASR) systems heavily depends on the availability of diverse and representative test datasets encompassing a wide range of complexities in various domains. This work introduces a novel methodology for collecting and preparing datasets for comprehensive ASR system evaluation. The proposed dataset incorporates a modern vocabulary enriched with numerous unique terms and proper nouns, facilitating an in-depth evaluation of overall ASR performance and the effectiveness of context-biasing techniques in computer science. Additionally, the dataset retains critical text features such as Punctuation and Capitalization (P&C), enabling a rigorous evaluation of P&C prediction algorithms. We present a detailed account of the dataset creation process, along with its statistical and qualitative analysis. Furthermore, we benchmark state-of-the-art ASR models, context-biasing approaches, and P&C prediction techniques using the proposed dataset, providing valuable insights into their relative performance.

Оценка производительности систем автоматического распознавания речи (Automatic Speech Recognition, ASR) в значительной степени зависит от наличия разнообразных и репрезентативных тестовых наборов данных, охватывающих широкий спектр сложностей в различных доменах. В данном исследовании представлена новая методология сбора и подготовки наборов данных, предназначенных для всесторонней оценки ASR систем. Предложенный набор данных включает современный словарный запас, обогащенный многочисленными уникальными терминами и именами собственными, что позволяет проводить углубленную оценку общей производительности ASR и эффективности методов смещения контекста (context-biasing) в области компьютерных технологий. Кроме того, в наборе данных сохраняются важные текстовые характеристики, такие как пунктуация и капитализация (Punctuation & Capitalization, P&C), что делает возможной строгую оценку алгоритмов предсказания P&C. Мы подробно описываем процесс создания набора данных, включая его анализ. Более того, мы проводим тестирование передовых ASR моделей, методов смещения контекста и алгоритмов предсказания P&C на основе предложенного набора данных, предоставляя ценные сведения об их относительной производительности.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	All

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. — Электрон. журнал. — Периодичность: 4 раза в год. — Свободный доступ из сети Интернет (чтение, печать, копирование). — Текст: электронный

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. Т. 18, № 2, 2025. — 1 файл (10,6 Мб). — Свободный доступ из сети Интернет (чтение, печать, копирование). — <URL:http://elib.spbstu.ru/dl/2/j25-293.pdf>.

Access count: 26
Last 30 days: 26

Detailed usage statistics