Details

Title Dataset creation for comprehensive performance evaluation of automatic speech recognition systems // Информатика, телекоммуникации и управление. – 2025. – Т. 18, № 2. — С. 33-44
Creators Andrusenko A. Yu. ; Drobintsev P. D.
Imprint 2025
Collection Общая коллекция
Subjects Вычислительная техника ; Звуковой интерфейс ; automatic speech recognition ; datasets ; context offsets ; test datasets ; large language models ; neural networks ; ASR systems ; автоматическое распознавание речи ; наборы данных ; смещение контекста ; тестовые наборы данных ; большие языковые модели ; нейронные сети ; ASR системы
UDC 004.52
LBC 32.973-018.2
Document type Article, report
File type PDF
Language English
DOI 10.18721/JCSTCS.18203
Rights Свободный доступ из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key RU\SPSTU\edoc\77150
Record create date 10/15/2025

Allowed Actions

Read Download (0.6 Mb)

Group Anonymous
Network Internet

The performance evaluation of Automatic Speech Recognition (ASR) systems heavily depends on the availability of diverse and representative test datasets encompassing a wide range of complexities in various domains. This work introduces a novel methodology for collecting and preparing datasets for comprehensive ASR system evaluation. The proposed dataset incorporates a modern vocabulary enriched with numerous unique terms and proper nouns, facilitating an in-depth evaluation of overall ASR performance and the effectiveness of context-biasing techniques in computer science. Additionally, the dataset retains critical text features such as Punctuation and Capitalization (P&C), enabling a rigorous evaluation of P&C prediction algorithms. We present a detailed account of the dataset creation process, along with its statistical and qualitative analysis. Furthermore, we benchmark state-of-the-art ASR models, context-biasing approaches, and P&C prediction techniques using the proposed dataset, providing valuable insights into their relative performance.

Оценка производительности систем автоматического распознавания речи (Automatic Speech Recognition, ASR) в значительной степени зависит от наличия разнообразных и репрезентативных тестовых наборов данных, охватывающих широкий спектр сложностей в различных доменах. В данном исследовании представлена новая методология сбора и подготовки наборов данных, предназначенных для всесторонней оценки ASR систем. Предложенный набор данных включает современный словарный запас, обогащенный многочисленными уникальными терминами и именами собственными, что позволяет проводить углубленную оценку общей производительности ASR и эффективности методов смещения контекста (context-biasing) в области компьютерных технологий. Кроме того, в наборе данных сохраняются важные текстовые характеристики, такие как пунктуация и капитализация (Punctuation & Capitalization, P&C), что делает возможной строгую оценку алгоритмов предсказания P&C. Мы подробно описываем процесс создания набора данных, включая его анализ. Более того, мы проводим тестирование передовых ASR моделей, методов смещения контекста и алгоритмов предсказания P&C на основе предложенного набора данных, предоставляя ценные сведения об их относительной производительности.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet All

Access count: 26 
Last 30 days: 26

Detailed usage statistics