Details
Title | Автоматическое распознавание потоковой речи на русском языке: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения» |
---|---|
Creators | Птицын Алексей Алексеевич |
Scientific adviser | Богач Наталья Владимировна |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2024 |
Collection | Выпускные квалификационные работы; Общая коллекция |
Subjects | распознавание речи; нейронные сети; машинное обучение; трансформеры; сквозные модели; многошаговое внимание; speech recognition; neural networks; machine learning; transformers; end-to-end models; multi-head attention |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 09.04.01 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2024/vr/vr24-3932 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Additionally | New arrival |
Record key | ru\spstu\vkr\33151 |
Record create date | 8/29/2024 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
В данной работе представлена разработка и реализация нейронной сети для автоматического распознавания речи на русском языке. Проанализированы различные архитектуры систем распознавания речи, включая гибридные системы и сквозные (End-to-End) модели. Обучение моделей проводилось на датасетах «LibriSpeech Russian» и «GOLOS». Результаты экспериментов показали, что модель, обученная на датасете «GOLOS», достигла точности распознавания 85%. Анализ метрик потерь и точности продемонстрировал, что модель успешно избегает переобучения, что свидетельствует о её высокой обобщающей способности. Сравнение с существующими решениями от Vosk и Google показало, что разработанная модель конкурентоспособна и может быть использована для распознавания потоковой речи на русском языке в реальных условиях.
This work presents the development and implementation of a neural network for automatic speech recognition in Russian. Various architectures of speech recognition systems are analyzed, including hybrid systems and end-to-end models. The models were trained on the "LibriSpeech Russian" and "GOLOS" datasets. The experimental results showed that the model trained on the "GOLOS" dataset achieved recognition accuracy of 85%. Analysis of loss and accuracy metrics demonstrated that the model avoids overfitting, which indicates its high generalization ability. Comparison with existing solutions from Vosk and Google showed that the developed model is competitive and can be used to recognize streaming speech in Russian language.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 1
Last 30 days: 1