Details

Title: Комбинирование типов подслов для акустического и языкового моделирования в задаче распознавания речи: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»
Creators: Свечников Роман Александрович
Scientific adviser: Богач Наталья Владимировна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2023
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: автоматическое распознавание речи; подсловная модель; взвешенные конечные преобразователи; automatic speech recognition; subword modeling; weighted finite state transducers
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 09.04.01
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2023/vr/vr23-3883
Rights: Доступ по паролю из сети Интернет (чтение)
Record key: ru\spstu\vkr\25013

Allowed Actions:

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Данная работа посвящена исследованию подсловных моделей распознавания речи. В большинстве случаев в качестве подслов в таких моделях используются графемы, как наиболее универсальные токены. В данной работе показано, что графемы не всегда могут быть оптимальным выбором для подсловной модели. Вклад данной работы состоит из трёх частей: во-первых, предложены специальные подслова для русского языка, повышающие описательную способность акустической модели; во-вторых, предложено несколько способов модификации графа распознавания для комбинирования типов акустических и языковых токенов; в-третьих, проведены эксперименты с комбинированием типов подслов, и получено улучшение вплоть до 13.3% WERR относительно базовой графемной модели.

This work investigates subword modelling for automatic speech recognition. In most cases, graphemes are used as subword-units in such models, being the most universal tokens. This work shows that graphemes may not always be the best choice for a subword model. The contribution of this work is threefold: firstly, special subwords for the Russian language are proposed, which increase the expressiveness of the acoustic model; secondly, several modifications of a recognition graph are proposed, which allow to combine types of acoustic and language tokens; thirdly, experiments on combining types of subword-units were carried out, and an improvement of up to 13.3% WERR relative to the basic grapheme model was obtained.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read
Internet Authorized users SPbPU Read
-> Internet Anonymous

Table of Contents

  • 1. Развитие технологий распознавания речи
    • 1.1. От распознавания фонем до HMM-DNN моделей
    • 1.2. Развитие интегральных систем
    • 1.3. Проблема внесловарных слов и подсловные модели
  • 2. Базовая подсловная модель распознавания речи
    • 2.1. Взвешенные конечные преобразователи
      • 2.1.1. Определение взвешенного конечного преобразователя
      • 2.1.2. Основные операции над взвешенными конечными преобразователями
    • 2.2. Граф распознавания
      • 2.2.1. Классический граф распознавания
      • 2.2.2. Внедрение моделирования подслов в граф распознавания
    • 2.3. Акустическое моделирование
    • 2.4. Языковое моделирование
  • 3. Повышение выразительности подсловной модели
    • 3.1. Использование дополнительных акустических токенов
      • 3.1.1. Расширенная графемная модель
      • 3.1.2. Описание эксперимента
      • 3.1.3. Результаты эксперимента
    • 3.2. Использование укрупнённых токенов в языковой модели
      • 3.2.1. Комбинирование типов токенов для акустического и языкового моделирования
      • 3.2.2. Конвертация акустических токенов в языковые
    • 3.3. Эксперименты с комбинированием типов токенов для акустического и языкового моделирования
  • ПРИЛОЖЕНИЕ. ЛИСТИНГИ

Usage statistics

stat Access count: 19
Last 30 days: 7
Detailed usage statistics