Детальная информация

Название Разработка нейросетевой модели обнаружения речевой активности в акустическом сигнале с применением архитектуры трансформеров: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»
Авторы Киселев Александр Андреевич
Научный руководитель Богач Наталья Владимировна
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения Санкт-Петербург, 2024
Коллекция Выпускные квалификационные работы; Общая коллекция
Тематика обнаружение речевой активности; архитектура трансформеров; акустический сигнал; мел-частотные кепстральные коэффициенты; фильтры спектро-временной модуляции; voice activity detection; transformer architecture; acoustic signal; mel-frequency cepstral coefficients; filters of spectro-temporal modulation
Тип документа Выпускная квалификационная работа магистра
Тип файла PDF
Язык Русский
Уровень высшего образования Магистратура
Код специальности ФГОС 09.04.01
Группа специальностей ФГОС 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2024/vr/vr24-3920
Права доступа Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\33139
Дата создания записи 29.08.2024

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Целью работы является создание нейросетевой модели обнаружения речевой активности с применением архитектуры трансформеров. Для достижения цели были поставлены следующие задачи: описание проблемы разделения речи и звука, обзор особенностей акустических признаков аудиосигнала, выбор архитектуры трансформеров и акустических признаков для модели, обзор аналогов для задачи обнаружения речевой активности, а также сравнение полученной модели обнаружения речевой активности с аналогами. В работе приведено описание проблемы разделения речи и звука, выполнен обзор особенностей акустических признаков аудиосигнала. Обоснован выбор архитектуры трансформеров и акустических признаков для модели. Для модели подобраны глобальные параметры и метрики оценки качества. В результате сравнения модели с существующими аналогами оказалось, что модель обладает высокими показателями метрики F1, равной 0.94, метрики ROC AUC, равной 0.94, и низким значением метрики SDT, равной 19 мс. Модель может быть использована для начального этапа задачи распознавания речи, а также в голосовых помощниках и в системах голосового управления.

The aim of the work is to create a neural network model for detecting speech activity using the transformer architecture. To achieve this goal, the following tasks were set: a description of the problem of separation of speech and sound, an overview of the features of acoustic features of the audio signal, the choice of transformer architecture and acoustic features for the model, an overview of analogues for the task of detecting speech activity, as well as a comparison of the obtained model of detecting speech activity with analogues. The paper describes the problem of separation of speech and sound, and provides  an overview of the features of the acoustic features of the audio signal. The choice of transformer architecture and acoustic features for the model is justified. Global parameters and quality assessment metrics have been selected for the model. As a result of comparing the model with existing analogues, it turned out that the model has high values of the F1 metric equal to 0.94, the ROC AUC metric equal to 0.94, and a low value of the SDT metric equal to 19 ms. The model can be used as an initial stage of the speech recognition task, as well as in voice assistants and voice control systems.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ
Прочитать Печать Загрузить
Интернет Анонимные пользователи

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика