Details
| Title | Dataset creation for comprehensive performance evaluation of automatic speech recognition systems // Информатика, телекоммуникации и управление. – 2025. – Т. 18, № 2. — С. 33-44 |
|---|---|
| Creators | Andrusenko A. Yu. ; Drobintsev P. D. |
| Imprint | 2025 |
| Collection | Общая коллекция |
| Subjects | Вычислительная техника ; Звуковой интерфейс ; automatic speech recognition ; datasets ; context offsets ; test datasets ; large language models ; neural networks ; ASR systems ; автоматическое распознавание речи ; наборы данных ; смещение контекста ; тестовые наборы данных ; большие языковые модели ; нейронные сети ; ASR системы |
| UDC | 004.52 |
| LBC | 32.973-018.2 |
| Document type | Article, report |
| File type | |
| Language | English |
| DOI | 10.18721/JCSTCS.18203 |
| Rights | Свободный доступ из сети Интернет (чтение, печать, копирование) |
| Additionally | New arrival |
| Record key | RU\SPSTU\edoc\77150 |
| Record create date | 10/15/2025 |
The performance evaluation of Automatic Speech Recognition (ASR) systems heavily depends on the availability of diverse and representative test datasets encompassing a wide range of complexities in various domains. This work introduces a novel methodology for collecting and preparing datasets for comprehensive ASR system evaluation. The proposed dataset incorporates a modern vocabulary enriched with numerous unique terms and proper nouns, facilitating an in-depth evaluation of overall ASR performance and the effectiveness of context-biasing techniques in computer science. Additionally, the dataset retains critical text features such as Punctuation and Capitalization (P&C), enabling a rigorous evaluation of P&C prediction algorithms. We present a detailed account of the dataset creation process, along with its statistical and qualitative analysis. Furthermore, we benchmark state-of-the-art ASR models, context-biasing approaches, and P&C prediction techniques using the proposed dataset, providing valuable insights into their relative performance.
Оценка производительности систем автоматического распознавания речи (Automatic Speech Recognition, ASR) в значительной степени зависит от наличия разнообразных и репрезентативных тестовых наборов данных, охватывающих широкий спектр сложностей в различных доменах. В данном исследовании представлена новая методология сбора и подготовки наборов данных, предназначенных для всесторонней оценки ASR систем. Предложенный набор данных включает современный словарный запас, обогащенный многочисленными уникальными терминами и именами собственными, что позволяет проводить углубленную оценку общей производительности ASR и эффективности методов смещения контекста (context-biasing) в области компьютерных технологий. Кроме того, в наборе данных сохраняются важные текстовые характеристики, такие как пунктуация и капитализация (Punctuation & Capitalization, P&C), что делает возможной строгую оценку алгоритмов предсказания P&C. Мы подробно описываем процесс создания набора данных, включая его анализ. Более того, мы проводим тестирование передовых ASR моделей, методов смещения контекста и алгоритмов предсказания P&C на основе предложенного набора данных, предоставляя ценные сведения об их относительной производительности.
Access count: 26
Last 30 days: 26