Комбинирование типов подслов для акустического и языкового моделирования в задаче распознавания речи: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»

Свечников, Роман Александрович

Вход в систему

Детальная информация

	Таблица	Карточка	RUSMARC

Название:	Комбинирование типов подслов для акустического и языкового моделирования в задаче распознавания речи: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»
Авторы:	Свечников Роман Александрович
Научный руководитель:	Богач Наталья Владимировна
Организация:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения:	Санкт-Петербург, 2023
Коллекция:	Выпускные квалификационные работы; Общая коллекция
Тематика:	автоматическое распознавание речи; подсловная модель; взвешенные конечные преобразователи; automatic speech recognition; subword modeling; weighted finite state transducers
Тип документа:	Выпускная квалификационная работа магистра
Тип файла:	PDF
Язык:	Русский
Уровень высшего образования:	Магистратура
Код специальности ФГОС:	09.04.01
Группа специальностей ФГОС:	090000 - Информатика и вычислительная техника
DOI:	10.18720/SPBPU/3/2023/vr/vr23-3883
Права доступа:	Доступ по паролю из сети Интернет (чтение)
Ключ записи:	ru\spstu\vkr\25013

Разрешенные действия: –

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Данная работа посвящена исследованию подсловных моделей распознавания речи. В большинстве случаев в качестве подслов в таких моделях используются графемы, как наиболее универсальные токены. В данной работе показано, что графемы не всегда могут быть оптимальным выбором для подсловной модели. Вклад данной работы состоит из трёх частей: во-первых, предложены специальные подслова для русского языка, повышающие описательную способность акустической модели; во-вторых, предложено несколько способов модификации графа распознавания для комбинирования типов акустических и языковых токенов; в-третьих, проведены эксперименты с комбинированием типов подслов, и получено улучшение вплоть до 13.3% WERR относительно базовой графемной модели.

This work investigates subword modelling for automatic speech recognition. In most cases, graphemes are used as subword-units in such models, being the most universal tokens. This work shows that graphemes may not always be the best choice for a subword model. The contribution of this work is threefold: firstly, special subwords for the Russian language are proposed, which increase the expressiveness of the acoustic model; secondly, several modifications of a recognition graph are proposed, which allow to combine types of acoustic and language tokens; thirdly, experiments on combining types of subword-units were carried out, and an improvement of up to 13.3% WERR relative to the basic grapheme model was obtained.

Права на использование объекта хранения

	Место доступа		Группа пользователей		Действие
	Локальная сеть ИБК СПбПУ		Все
	Интернет		Авторизованные пользователи СПбПУ
	Интернет		Анонимные пользователи

1. Развитие технологий распознавания речи
- 1.1. От распознавания фонем до HMM-DNN моделей
- 1.2. Развитие интегральных систем
- 1.3. Проблема внесловарных слов и подсловные модели
2. Базовая подсловная модель распознавания речи
- 2.1. Взвешенные конечные преобразователи
  - 2.1.1. Определение взвешенного конечного преобразователя
  - 2.1.2. Основные операции над взвешенными конечными преобразователями
- 2.2. Граф распознавания
  - 2.2.1. Классический граф распознавания
  - 2.2.2. Внедрение моделирования подслов в граф распознавания
- 2.3. Акустическое моделирование
- 2.4. Языковое моделирование
3. Повышение выразительности подсловной модели
- 3.1. Использование дополнительных акустических токенов
  - 3.1.1. Расширенная графемная модель
  - 3.1.2. Описание эксперимента
  - 3.1.3. Результаты эксперимента
- 3.2. Использование укрупнённых токенов в языковой модели
  - 3.2.1. Комбинирование типов токенов для акустического и языкового моделирования
  - 3.2.2. Конвертация акустических токенов в языковые
- 3.3. Эксперименты с комбинированием типов токенов для акустического и языкового моделирования
ПРИЛОЖЕНИЕ. ЛИСТИНГИ

Статистика использования

Количество обращений: 19
За последние 30 дней: 7
Подробная статистика

Детальная информация

Аннотация

Права на использование объекта хранения

Оглавление

Статистика использования