Распознавание речи в аудиофайле с последующим выделением основного содержания с помощью нейронных сетей: выпускная квалификационная работа бакалавра: направление 11.03.01 «Радиотехника» ; образовательная программа 11.03.01_01 «Космические и наземные радиотехнические системы»

Эхтибаров, Орхан Оруджевич

Вход в систему

Детальная информация

	Таблица	Карточка	RUSMARC

Название:	Распознавание речи в аудиофайле с последующим выделением основного содержания с помощью нейронных сетей: выпускная квалификационная работа бакалавра: направление 11.03.01 «Радиотехника» ; образовательная программа 11.03.01_01 «Космические и наземные радиотехнические системы»
Авторы:	Эхтибаров Орхан Оруджевич
Научный руководитель:	Попов Евгений Александрович
Организация:	Санкт-Петербургский политехнический университет Петра Великого. Институт электроники и телекоммуникаций
Выходные сведения:	Санкт-Петербург, 2023
Коллекция:	Выпускные квалификационные работы; Общая коллекция
Тематика:	кодер; декодер; взаимная энтропия; трансформер; спектрограмма; набор данных; оптимизатор; функция потерь; аугментация данных; функция активации; encoder; decoder; mutual entropy; transformer; spectrogram; data set; optimised; loss function; data increase; activation function
Тип документа:	Выпускная квалификационная работа бакалавра
Тип файла:	PDF
Язык:	Русский
Уровень высшего образования:	Бакалавриат
Код специальности ФГОС:	11.03.01
Группа специальностей ФГОС:	110000 - Электроника, радиотехника и системы связи
DOI:	10.18720/SPBPU/3/2023/vr/vr23-4574
Права доступа:	Доступ по паролю из сети Интернет (чтение)
Ключ записи:	ru\spstu\vkr\24004

Разрешенные действия: –

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Цель работы – разработка и применение нейронных сетей для распознавания речи и выделения основного содержания из полученного текста. В результате работы была выбрана оптимальная модель для распознавания речи по признакам качества распознавания и ресурсозатратностью. В качестве такой модели была выбрана архитектура Conformer. В ходе работы архитектура была модифицирована под имеющиеся данные. В качестве исходных данных были взяты сотни часов русской речи с выполненной транскрипцией. В качестве модели для выделения основного содержания из распознанного текста была выбрана предобученная архитектура Т5. Модель была реализована на языке программирования Python. Результатом работы является полностью готовая модель, построенная на оптимальных по ресурсозатратности и качеству архитектурах, принимающая на вход аудиосигнал с русской речью, и, возвращающая на выходе основное содержание данного аудиосигнала.

The given work is devoted to developing a model for speech recognition and extraction of the main content from received text using neural networks. As a result of the work, the optimal model for speech recognition was selected based on the characteristics of recognition quality and resource consumption. Conformer architecture was chosen as such a model. In the course of the work, the architecture was modified to fit the available data. Hundreds of hours of Russian speech with transcription were taken as initial data. The pre-trained T5 architecture was chosen as a model for highlighting the main content from the recognized text. The model was implemented in the Python programming language. The result of the work is a completely ready-made model built on architectures that are optimal in terms of resource consumption and quality, accepting an audio signal with Russian speech as input, and returning the main content of this audio signal at the output. Despite the fact that the problem has existed for a long time, only recently has the solution of these problems with the help of neural networks achieved a good result, which is due both to the emergence of new neural network architectures and to the fact that the computing power available now is much greater than a few decades ago. The scope of application is social networks, video portals, voice assistants.

Права на использование объекта хранения

	Место доступа		Группа пользователей		Действие
	Локальная сеть ИБК СПбПУ		Все
	Интернет		Авторизованные пользователи СПбПУ
	Интернет		Анонимные пользователи

Статистика использования

Количество обращений: 1
За последние 30 дней: 0
Подробная статистика