Детальная информация

Название Комбинирование типов подслов для акустического и языкового моделирования в задаче распознавания речи: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»
Авторы Свечников Роман Александрович
Научный руководитель Богач Наталья Владимировна
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения Санкт-Петербург, 2023
Коллекция Выпускные квалификационные работы; Общая коллекция
Тематика автоматическое распознавание речи; подсловная модель; взвешенные конечные преобразователи; automatic speech recognition; subword modeling; weighted finite state transducers
Тип документа Выпускная квалификационная работа магистра
Тип файла PDF
Язык Русский
Уровень высшего образования Магистратура
Код специальности ФГОС 09.04.01
Группа специальностей ФГОС 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2023/vr/vr23-3883
Права доступа Доступ по паролю из сети Интернет (чтение)
Ключ записи ru\spstu\vkr\25013
Дата создания записи 03.08.2023

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Данная работа посвящена исследованию подсловных моделей распознавания речи. В большинстве случаев в качестве подслов в таких моделях используются графемы, как наиболее универсальные токены. В данной работе показано, что графемы не всегда могут быть оптимальным выбором для подсловной модели. Вклад данной работы состоит из трёх частей: во-первых, предложены специальные подслова для русского языка, повышающие описательную способность акустической модели; во-вторых, предложено несколько способов модификации графа распознавания для комбинирования типов акустических и языковых токенов; в-третьих, проведены эксперименты с комбинированием типов подслов, и получено улучшение вплоть до 13.3% WERR относительно базовой графемной модели.

This work investigates subword modelling for automatic speech recognition. In most cases, graphemes are used as subword-units in such models, being the most universal tokens. This work shows that graphemes may not always be the best choice for a subword model. The contribution of this work is threefold: firstly, special subwords for the Russian language are proposed, which increase the expressiveness of the acoustic model; secondly, several modifications of a recognition graph are proposed, which allow to combine types of acoustic and language tokens; thirdly, experiments on combining types of subword-units were carried out, and an improvement of up to 13.3% WERR relative to the basic grapheme model was obtained.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать
Интернет Авторизованные пользователи СПбПУ
Прочитать
Интернет Анонимные пользователи

Количество обращений: 35 
За последние 30 дней: 1

Подробная статистика