Комбинирование типов подслов для акустического и языкового моделирования в задаче распознавания речи: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения» = Combining subword-unit types in acoustic and language modelling for automatic speech recognition

Свечников, Роман Александрович

Детальная информация

Название	Комбинирование типов подслов для акустического и языкового моделирования в задаче распознавания речи: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения» = Combining subword-unit types in acoustic and language modelling for automatic speech recognition
Авторы	Свечников Роман Александрович
Научный руководитель	Богач Наталья Владимировна
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения	Санкт-Петербург, 2023
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	автоматическое распознавание речи ; подсловная модель ; взвешенные конечные преобразователи ; automatic speech recognition ; subword modeling ; weighted finite state transducers
Тип документа	Выпускная квалификационная работа магистра
Язык	Русский
Уровень высшего образования	Магистратура
Код специальности ФГОС	09.04.01
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2023/vr/vr23-3883
Права доступа	Доступ по паролю из сети Интернет (чтение)
Ключ записи	ru\spstu\vkr\25013
Дата создания записи	03.08.2023

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Данная работа посвящена исследованию подсловных моделей распознавания речи. В большинстве случаев в качестве подслов в таких моделях используются графемы, как наиболее универсальные токены. В данной работе показано, что графемы не всегда могут быть оптимальным выбором для подсловной модели. Вклад данной работы состоит из трёх частей: во-первых, предложены специальные подслова для русского языка, повышающие описательную способность акустической модели; во-вторых, предложено несколько способов модификации графа распознавания для комбинирования типов акустических и языковых токенов; в-третьих, проведены эксперименты с комбинированием типов подслов, и получено улучшение вплоть до 13.3% WERR относительно базовой графемной модели.

This work investigates subword modelling for automatic speech recognition. In most cases, graphemes are used as subword-units in such models, being the most universal tokens. This work shows that graphemes may not always be the best choice for a subword model. The contribution of this work is threefold: firstly, special subwords for the Russian language are proposed, which increase the expressiveness of the acoustic model; secondly, several modifications of a recognition graph are proposed, which allow to combine types of acoustic and language tokens; thirdly, experiments on combining types of subword-units were carried out, and an improvement of up to 13.3% WERR relative to the basic grapheme model was obtained.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

1. Развитие технологий распознавания речи
- 1.1. От распознавания фонем до HMM-DNN моделей
- 1.2. Развитие интегральных систем
- 1.3. Проблема внесловарных слов и подсловные модели
2. Базовая подсловная модель распознавания речи
- 2.1. Взвешенные конечные преобразователи
  - 2.1.1. Определение взвешенного конечного преобразователя
  - 2.1.2. Основные операции над взвешенными конечными преобразователями
- 2.2. Граф распознавания
  - 2.2.1. Классический граф распознавания
  - 2.2.2. Внедрение моделирования подслов в граф распознавания
- 2.3. Акустическое моделирование
- 2.4. Языковое моделирование
3. Повышение выразительности подсловной модели
- 3.1. Использование дополнительных акустических токенов
  - 3.1.1. Расширенная графемная модель
  - 3.1.2. Описание эксперимента
  - 3.1.3. Результаты эксперимента
- 3.2. Использование укрупнённых токенов в языковой модели
  - 3.2.1. Комбинирование типов токенов для акустического и языкового моделирования
  - 3.2.2. Конвертация акустических токенов в языковые
- 3.3. Эксперименты с комбинированием типов токенов для акустического и языкового моделирования
ПРИЛОЖЕНИЕ. ЛИСТИНГИ

...