Details

Title Автоматическое распознавание потоковой речи на русском языке: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»
Creators Птицын Алексей Алексеевич
Scientific adviser Богач Наталья Владимировна
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2024
Collection Выпускные квалификационные работы; Общая коллекция
Subjects распознавание речи; нейронные сети; машинное обучение; трансформеры; сквозные модели; многошаговое внимание; speech recognition; neural networks; machine learning; transformers; end-to-end models; multi-head attention
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 09.04.01
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2024/vr/vr24-3932
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\33151
Record create date 8/29/2024

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

В данной работе представлена разработка и реализация нейронной сети для автоматического распознавания речи на русском языке. Проанализированы различные архитектуры систем распознавания речи, включая гибридные системы и сквозные (End-to-End) модели. Обучение моделей проводилось на датасетах «LibriSpeech Russian» и «GOLOS». Результаты экспериментов показали, что модель, обученная на датасете «GOLOS», достигла точности распознавания 85%. Анализ метрик потерь и точности продемонстрировал, что модель успешно избегает переобучения, что свидетельствует о её высокой обобщающей способности. Сравнение с существующими решениями от Vosk и Google показало, что разработанная модель конкурентоспособна и может быть использована для распознавания потоковой речи на русском языке в реальных условиях.

This work presents the development and implementation of a neural network for automatic speech recognition in Russian. Various architectures of speech recognition systems are analyzed, including hybrid systems and end-to-end models. The models were trained on the "LibriSpeech Russian" and "GOLOS" datasets. The experimental results showed that the model trained on the "GOLOS" dataset achieved recognition accuracy of 85%. Analysis of loss and accuracy metrics demonstrated that the model avoids overfitting, which indicates its high generalization ability. Comparison with existing solutions from Vosk and Google showed that the developed model is competitive and can be used to recognize streaming speech in Russian language.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous

Access count: 1 
Last 30 days: 1

Detailed usage statistics