Система распознавания речи: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии»

Гринчевский, Даниил Игоревич

Details

Title	Система распознавания речи: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии»
Creators	Гринчевский Даниил Игоревич
Scientific adviser	Черненькая Людмила Васильевна
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint	Санкт-Петербург, 2023
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	скрытые марковские модели ; распознавание речи ; рекуррентные нейронные сети ; hidden markov models ; speech recognition ; recurrent neural networks
Document type	Bachelor graduation qualification work
File type	PDF
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	09.03.02
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2023/vr/vr24-2
Rights	Доступ по паролю из сети Интернет (чтение)
Record key	ru\spstu\vkr\26569
Record create date	2/13/2024

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Тема выпускной квалификационной работы: «Система распознавания речи». Данная работа посвящена исследованию текущих алгоритмов и систем распознавания речи. Задачи, которые решались в ходе исследования: Изучение истории и проблем распознавания речи. Декомпозиция задачи по созданию системы. Анализ существующих алгоритмов и систем. Разработка собственной системы на основе полученных данных. В ходе работы мы ознакомились с историей проблемы и посмотрели как вопрос решается данная задача. Был проведен анализ существующих алгоритмов распознавания речи, показывающих, какими способами можно подойти к ее решению. На этой основе была выбрана математическая модель Kaldi, оснащенного базами данных для звуковой или словарной части .В результате была разработана система, которая с небольшими погрешностями справляется с транскрибацией аудиофайлов с русской звуковой дорожкой.

Topic of the final qualification work: "Speech recognition system". This work is devoted to the study of current algorithms and speech recognition systems. Tasks that were solved in the course of the study:1. Studying the history and problems of speech recognition.2. Decomposition of the task of creating a system.3. Analysis of existing algorithms and systems.4. Development of your own system based on the received dataIn the course of the work, we got acquainted with the history of the problem and looked at how this problem solves the issue. An analysis of the existing speech recognition algorithms was carried out, showing in what ways it is possible to approach its solution. On this basis, the mathematical model of Kaldi was chosen, equipped with databases for the sound or vocabulary part.As a result, a system was developed that, with small errors, copes with the transcription of audio files with a Russian sound track.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Введение.
Обзор литературы.
ГЛАВА 1. ОБЗОР СОВРЕМЕННЫХ ИССЛЕДОВАНИЙ В ОБЛАСТИ
РАСПОЗНАВАНИЯ РЕЧИ
1.1. История технологии распознавания речи.
1.2. Проблемы, которые решает распознавание речи.
1.3. Основные подходы к решению задачи распознавания речи.
1.4. Акустико-фонетический блок.
1.4.1. Как строится эта модель?
1.5. Математическая модель фонемы человеческого голоса.
1.5.1. Словарь транскрипций.
1.5.2. Распознавание фонем.
1.6. Языковые модели.
1.7. Выводы
ГЛАВА 2. СУЩЕСТВУЮЩИЕ МЕТОДЫ И АЛГОРИТМЫ РАСПОЗНАВАНИЯ РЕЧИ
2.1. Скрытая Марковская модель
2.2. GMM акустические модели.
2.3. Метод скользящего окна.
2.4. Искусственные нейронные сети.
2.5. DNN акустические модели.
2.6. Сети долго-краткосрочной памяти.
2.7. Гибридные модели СММ и ИНС
2.8. Выводы
ГЛАВА 3. СУЩЕСТВУЮЩИЕ СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ
3.1. Метрики качества распознавания речи.
3.2. Выводы
ГЛАВА 4. РЕАЛИЗАЦИЯ СИСТЕМЫ РАСПОЗНАВАНИЯ РУССКОЙ РЕЧИ
4.1. Установка и настройка Pykaldi.
Для разработки системы распознавания русской речи воспользуемся библиотекой Pykaldi на Python.
PyKaldi — это библиотека Python из набора инструментов распознавания речи Kaldi. Он предоставляет простые в использовании первоклассные оболочки Python с низкой загруженностью для кода C++ в библиотеках Kaldi и OpenFst. Можно использовать PyKaldi для...
- 4.2. Установка и настройка Kaldi.
Минимальные требования к операционной системе Kaldi — любая Unix-подобная система. Согласно документации, он был протестирован на Debian и Red Hat.
В данной работе используется Docker образ с операционной системой Linux Ubuntu 18.04.
Необходимые компоненты для установки и работы с Kaldi:
 GIT: необходим для загрузки библиотеки и других зависимостей;
 Wget: необходим для установки некоторых компонентов, не входящих в установочный пакет библиотеки;
 Утилиты Unix: bash, perl, awk, grep, make.
 Платформа для разработки, доставки и запуска контейнерных приложений Docker
Инструменты и библиотеки, которые входят в пакет установки Kaldi:
• OpenFst – библиотека для работы с конечными автоматами (Finite State Tranducers). Конечные автоматы играют важную роль в распознавании и синтезе речи и используются для представления вероятностных моделей (например, n-gramm).
• IRSTLM – это инструмент для построения языковых моделей. Процесс сборки IRSTLM требует Automake, ACLOCAL и libtoolize (соответствующие пакеты Automake и Libtool).
• sph2pipe – инструмент для преобразования файлов формата SPH в другие форматы, такие как WAV. Необходим для сценариев, которые используют данные LDC.
• ATLAS (Automatically Tuned Linear Algebra Software) – пакет линейной алгебры. Является решением для автоматической генерации и оптимизации ПО для численных вычислений. В настоящее время ATLAS поставляет оптимизированные версии полного набора яде...
• CLAPACK: библиотека для линейной алгебры. Используется в системах, не имеющих ATLAS.
Kaldi можно скачать с официального репозитория: https://github.com/kaldi-asr/kaldi, выполнив следующую команду:
git clone https://github.com/Kaldi-asr/Kaldi.git Kaldi --origin upstream
Структура Kaldi каталога:
 ./tools ./src ./egs – являются самыми важными каталогами, где
 tools – содержит инструменты, требуемые для работы: OpenFST, ATLAS.
 src – каталог, где содержится код Kaldi, каталоги, имя которых заканчивается на *bin содержит исполняемые файлы Kaldi.
 egs – данный каталог содержит примеры использования системы распознавания речи.
- 4.3. Установка модели.
В качестве акустической и языковой модели используется русскоязычная модель от alphacep. Она уже хорошо обучена и будет иметь высокие показатели. В теории можно обучить и свою модель основанную на keras + tenorflow, но опять же мы будем упираться в ...
- 4.4. Реализация сервера.
Будем поднимать сервер на Flask. Flask — это веб-фреймворк, это модуль Python, который позволяет легко разрабатывать веб-приложения. У него небольшое и легко расширяемое ядро: это микрофреймворк, который не включает ORM (Object Relational Manager) ил...
Интерфейс шлюза веб-сервера (WSGI) использовался в качестве стандарта для разработки веб-приложений Python. WSGI — это спецификация общего интерфейса между веб-серверами и веб-приложениями. Здесь нам понадобится создать темплейт, где мы будем отдава...
- 4.5. Пайплайн обработки распознавания речи.
- 4.6. Тестирование программы.
- 4.7.Выводы
- В этой главе мы постарались реализовать нашу собственную систему по распознаванию речи. Для этого решения мы воспользовались:
- Заключение.
- Список литературы.
- Приложение-код.

Access count: 6
Last 30 days: 0

Detailed usage statistics