Детальная информация
Название | Автоматическое распознавание потоковой речи на русском языке: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения» |
---|---|
Авторы | Птицын Алексей Алексеевич |
Научный руководитель | Богач Наталья Владимировна |
Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Выходные сведения | Санкт-Петербург, 2024 |
Коллекция | Выпускные квалификационные работы; Общая коллекция |
Тематика | распознавание речи; нейронные сети; машинное обучение; трансформеры; сквозные модели; многошаговое внимание; speech recognition; neural networks; machine learning; transformers; end-to-end models; multi-head attention |
Тип документа | Выпускная квалификационная работа магистра |
Тип файла | |
Язык | Русский |
Уровень высшего образования | Магистратура |
Код специальности ФГОС | 09.04.01 |
Группа специальностей ФГОС | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2024/vr/vr24-3932 |
Права доступа | Доступ по паролю из сети Интернет (чтение) |
Дополнительно | Новинка |
Ключ записи | ru\spstu\vkr\33151 |
Дата создания записи | 29.08.2024 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа | Анонимные пользователи |
---|---|
Сеть | Интернет |
В данной работе представлена разработка и реализация нейронной сети для автоматического распознавания речи на русском языке. Проанализированы различные архитектуры систем распознавания речи, включая гибридные системы и сквозные (End-to-End) модели. Обучение моделей проводилось на датасетах «LibriSpeech Russian» и «GOLOS». Результаты экспериментов показали, что модель, обученная на датасете «GOLOS», достигла точности распознавания 85%. Анализ метрик потерь и точности продемонстрировал, что модель успешно избегает переобучения, что свидетельствует о её высокой обобщающей способности. Сравнение с существующими решениями от Vosk и Google показало, что разработанная модель конкурентоспособна и может быть использована для распознавания потоковой речи на русском языке в реальных условиях.
This work presents the development and implementation of a neural network for automatic speech recognition in Russian. Various architectures of speech recognition systems are analyzed, including hybrid systems and end-to-end models. The models were trained on the "LibriSpeech Russian" and "GOLOS" datasets. The experimental results showed that the model trained on the "GOLOS" dataset achieved recognition accuracy of 85%. Analysis of loss and accuracy metrics demonstrated that the model avoids overfitting, which indicates its high generalization ability. Comparison with existing solutions from Vosk and Google showed that the developed model is competitive and can be used to recognize streaming speech in Russian language.
Место доступа | Группа пользователей | Действие |
---|---|---|
Локальная сеть ИБК СПбПУ | Все |
|
Интернет | Авторизованные пользователи СПбПУ |
|
Интернет | Анонимные пользователи |
|
Количество обращений: 1
За последние 30 дней: 1