Детальная информация

Название Dataset creation for comprehensive performance evaluation of automatic speech recognition systems // Информатика, телекоммуникации и управление. – 2025. – Т. 18, № 2. — С. 33-44
Авторы Andrusenko A. Yu. ; Drobintsev P. D.
Выходные сведения 2025
Коллекция Общая коллекция
Тематика Вычислительная техника ; Звуковой интерфейс ; automatic speech recognition ; datasets ; context offsets ; test datasets ; large language models ; neural networks ; ASR systems ; автоматическое распознавание речи ; наборы данных ; смещение контекста ; тестовые наборы данных ; большие языковые модели ; нейронные сети ; ASR системы
УДК 004.52
ББК 32.973-018.2
Тип документа Статья, доклад
Тип файла PDF
Язык Английский
DOI 10.18721/JCSTCS.18203
Права доступа Свободный доступ из сети Интернет (чтение, печать, копирование)
Дополнительно Новинка
Ключ записи RU\SPSTU\edoc\77150
Дата создания записи 15.10.2025

Разрешенные действия

Прочитать Загрузить (0,6 Мб)

Группа Анонимные пользователи
Сеть Интернет

The performance evaluation of Automatic Speech Recognition (ASR) systems heavily depends on the availability of diverse and representative test datasets encompassing a wide range of complexities in various domains. This work introduces a novel methodology for collecting and preparing datasets for comprehensive ASR system evaluation. The proposed dataset incorporates a modern vocabulary enriched with numerous unique terms and proper nouns, facilitating an in-depth evaluation of overall ASR performance and the effectiveness of context-biasing techniques in computer science. Additionally, the dataset retains critical text features such as Punctuation and Capitalization (P&C), enabling a rigorous evaluation of P&C prediction algorithms. We present a detailed account of the dataset creation process, along with its statistical and qualitative analysis. Furthermore, we benchmark state-of-the-art ASR models, context-biasing approaches, and P&C prediction techniques using the proposed dataset, providing valuable insights into their relative performance.

Оценка производительности систем автоматического распознавания речи (Automatic Speech Recognition, ASR) в значительной степени зависит от наличия разнообразных и репрезентативных тестовых наборов данных, охватывающих широкий спектр сложностей в различных доменах. В данном исследовании представлена новая методология сбора и подготовки наборов данных, предназначенных для всесторонней оценки ASR систем. Предложенный набор данных включает современный словарный запас, обогащенный многочисленными уникальными терминами и именами собственными, что позволяет проводить углубленную оценку общей производительности ASR и эффективности методов смещения контекста (context-biasing) в области компьютерных технологий. Кроме того, в наборе данных сохраняются важные текстовые характеристики, такие как пунктуация и капитализация (Punctuation & Capitalization, P&C), что делает возможной строгую оценку алгоритмов предсказания P&C. Мы подробно описываем процесс создания набора данных, включая его анализ. Более того, мы проводим тестирование передовых ASR моделей, методов смещения контекста и алгоритмов предсказания P&C на основе предложенного набора данных, предоставляя ценные сведения об их относительной производительности.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать Загрузить
Интернет Все

Количество обращений: 26 
За последние 30 дней: 26

Подробная статистика