Автоматическое распознавание потоковой речи на русском языке: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»

Птицын, Алексей Алексеевич

Детальная информация

Название	Автоматическое распознавание потоковой речи на русском языке: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»
Авторы	Птицын Алексей Алексеевич
Научный руководитель	Богач Наталья Владимировна
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения	Санкт-Петербург, 2024
Коллекция	Выпускные квалификационные работы; Общая коллекция
Тематика	распознавание речи; нейронные сети; машинное обучение; трансформеры; сквозные модели; многошаговое внимание; speech recognition; neural networks; machine learning; transformers; end-to-end models; multi-head attention
Тип документа	Выпускная квалификационная работа магистра
Тип файла	PDF
Язык	Русский
Уровень высшего образования	Магистратура
Код специальности ФГОС	09.04.01
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2024/vr/vr24-3932
Права доступа	Доступ по паролю из сети Интернет (чтение)
Дополнительно	Новинка
Ключ записи	ru\spstu\vkr\33151
Дата создания записи	29.08.2024

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

В данной работе представлена разработка и реализация нейронной сети для автоматического распознавания речи на русском языке. Проанализированы различные архитектуры систем распознавания речи, включая гибридные системы и сквозные (End-to-End) модели. Обучение моделей проводилось на датасетах «LibriSpeech Russian» и «GOLOS». Результаты экспериментов показали, что модель, обученная на датасете «GOLOS», достигла точности распознавания 85%. Анализ метрик потерь и точности продемонстрировал, что модель успешно избегает переобучения, что свидетельствует о её высокой обобщающей способности. Сравнение с существующими решениями от Vosk и Google показало, что разработанная модель конкурентоспособна и может быть использована для распознавания потоковой речи на русском языке в реальных условиях.

This work presents the development and implementation of a neural network for automatic speech recognition in Russian. Various architectures of speech recognition systems are analyzed, including hybrid systems and end-to-end models. The models were trained on the "LibriSpeech Russian" and "GOLOS" datasets. The experimental results showed that the model trained on the "GOLOS" dataset achieved recognition accuracy of 85%. Analysis of loss and accuracy metrics demonstrated that the model avoids overfitting, which indicates its high generalization ability. Comparison with existing solutions from Vosk and Google showed that the developed model is competitive and can be used to recognize streaming speech in Russian language.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Количество обращений: 1
За последние 30 дней: 1

Подробная статистика