Детальная информация

Название: Интеграционный подход распознавания зашумленной русскоязычной речи: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_03 «Разработка программного обеспечения»
Авторы: Гомонюк Даниил Евгеньевич
Научный руководитель: Никифоров Игорь Валерьевич
Другие авторы: Локшина Екатерина Геннадиевна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: машинное обучение; распознавание речи; deepspeech; kaldi; рекуррентные нейронные сети; глубокое обучение; языковые модели; speech-to-text; machine learning; speech recognition; recurrent neural networks; deep learning; language models
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1309
Права доступа: Доступ по паролю из сети Интернет (чтение)
Ключ записи: ru\spstu\vkr\7171

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В исследовательской работе рассматриваются методы автоматизированного преобразования аудио записи в текстовый формат данных, иными словами, распознавание речи. Особый акцент сделан на распознавание зашумленной русской речи. В работе выполнен обзор существующих методов распознавания речи, к которым относятся: интегральный и гибридный методы. Также приведен обзор и сравнительный анализ существующих реализаций предложенных методов и их метрики. На основе сравнительного анализа сделан вывод, что технология Mozilla DeepSpeech является наиболее мощным средством распознавания речи. Отличительной особенностью работы является применение комбинированного метода распознавания, который позволяет повысить качество распознавания зашумленных записей. Комбинируются следующие методы: интегральный и модульный методы. Предлагаемый метод реализован в программном комплексе распознавания зашумленной русскоязычной речи с использованием технологий Mozilla DeepSpeech, и Kaldi. Продемонстрированы результаты, показывающие эффективность применения предложенного интегрального метода. Разработанный программный комплекс может использоваться в компаниях занимающимися технической поддержкой для повышения эффективности обработки запросов клиентов.

The research paper considers methods for the automated conversion of audio recordings into a text data format, in other words, speech recognition. Particular emphasis is placed on the recognition of noisy Russian speech. The paper provides an overview of existing speech recognition methods, which include: integrated and hybrid methods. A review and comparative analysis of existing implementations of the proposed methods and their metrics is also given. Based on a comparative analysis, it was concluded that Mozilla DeepSpeech technology is the most powerful speech recognition tool. A distinctive feature of the work is the use of the combined recognition method, which allows to improve the recognition quality of noisy recordings. The following methods are combined: integrated and modular methods. The proposed method is implemented in a software package for recognizing noisy Russian-language speech using Mozilla DeepSpeech, and Kaldi technologies. The results showing the effectiveness of the proposed integrated method are demonstrated. The developed software package can be used in companies engaged in technical support to increase the efficiency of processing customer requests.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать
Внешние организации №2 Все Прочитать
Внешние организации №1 Все
Интернет Авторизованные пользователи СПбПУ Прочитать
Интернет Авторизованные пользователи (не СПбПУ, №2) Прочитать
Интернет Авторизованные пользователи (не СПбПУ, №1)
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 13
За последние 30 дней: 0
Подробная статистика