Автоматическое распознавание потоковой речи на русском языке: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»

Птицын, Алексей Алексеевич

Details

Title	Автоматическое распознавание потоковой речи на русском языке: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»
Creators	Птицын Алексей Алексеевич
Scientific adviser	Богач Наталья Владимировна
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2024
Collection	Выпускные квалификационные работы; Общая коллекция
Subjects	распознавание речи; нейронные сети; машинное обучение; трансформеры; сквозные модели; многошаговое внимание; speech recognition; neural networks; machine learning; transformers; end-to-end models; multi-head attention
Document type	Master graduation qualification work
File type	PDF
Language	Russian
Level of education	Master
Speciality code (FGOS)	09.04.01
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2024/vr/vr24-3932
Rights	Доступ по паролю из сети Интернет (чтение)
Additionally	New arrival
Record key	ru\spstu\vkr\33151
Record create date	8/29/2024

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

В данной работе представлена разработка и реализация нейронной сети для автоматического распознавания речи на русском языке. Проанализированы различные архитектуры систем распознавания речи, включая гибридные системы и сквозные (End-to-End) модели. Обучение моделей проводилось на датасетах «LibriSpeech Russian» и «GOLOS». Результаты экспериментов показали, что модель, обученная на датасете «GOLOS», достигла точности распознавания 85%. Анализ метрик потерь и точности продемонстрировал, что модель успешно избегает переобучения, что свидетельствует о её высокой обобщающей способности. Сравнение с существующими решениями от Vosk и Google показало, что разработанная модель конкурентоспособна и может быть использована для распознавания потоковой речи на русском языке в реальных условиях.

This work presents the development and implementation of a neural network for automatic speech recognition in Russian. Various architectures of speech recognition systems are analyzed, including hybrid systems and end-to-end models. The models were trained on the "LibriSpeech Russian" and "GOLOS" datasets. The experimental results showed that the model trained on the "GOLOS" dataset achieved recognition accuracy of 85%. Analysis of loss and accuracy metrics demonstrated that the model avoids overfitting, which indicates its high generalization ability. Comparison with existing solutions from Vosk and Google showed that the developed model is competitive and can be used to recognize streaming speech in Russian language.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 1
Last 30 days: 1

Detailed usage statistics