Таблица | Карточка | RUSMARC | |
Разрешенные действия: –
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа: Анонимные пользователи Сеть: Интернет |
Аннотация
Цель работы – разработка и применение нейронных сетей для распознавания речи и выделения основного содержания из полученного текста. В результате работы была выбрана оптимальная модель для распознавания речи по признакам качества распознавания и ресурсозатратностью. В качестве такой модели была выбрана архитектура Conformer. В ходе работы архитектура была модифицирована под имеющиеся данные. В качестве исходных данных были взяты сотни часов русской речи с выполненной транскрипцией. В качестве модели для выделения основного содержания из распознанного текста была выбрана предобученная архитектура Т5. Модель была реализована на языке программирования Python. Результатом работы является полностью готовая модель, построенная на оптимальных по ресурсозатратности и качеству архитектурах, принимающая на вход аудиосигнал с русской речью, и, возвращающая на выходе основное содержание данного аудиосигнала.
The given work is devoted to developing a model for speech recognition and extraction of the main content from received text using neural networks. As a result of the work, the optimal model for speech recognition was selected based on the characteristics of recognition quality and resource consumption. Conformer architecture was chosen as such a model. In the course of the work, the architecture was modified to fit the available data. Hundreds of hours of Russian speech with transcription were taken as initial data. The pre-trained T5 architecture was chosen as a model for highlighting the main content from the recognized text. The model was implemented in the Python programming language. The result of the work is a completely ready-made model built on architectures that are optimal in terms of resource consumption and quality, accepting an audio signal with Russian speech as input, and returning the main content of this audio signal at the output. Despite the fact that the problem has existed for a long time, only recently has the solution of these problems with the help of neural networks achieved a good result, which is due both to the emergence of new neural network architectures and to the fact that the computing power available now is much greater than a few decades ago. The scope of application is social networks, video portals, voice assistants.
Права на использование объекта хранения
Место доступа | Группа пользователей | Действие | ||||
---|---|---|---|---|---|---|
Локальная сеть ИБК СПбПУ | Все | |||||
Интернет | Авторизованные пользователи СПбПУ | |||||
Интернет | Анонимные пользователи |
Статистика использования
Количество обращений: 1
За последние 30 дней: 0 Подробная статистика |