Таблица | Карточка | RUSMARC | |
Разрешенные действия: –
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа: Анонимные пользователи Сеть: Интернет |
Аннотация
Выпускная квалификационная работа посвящена решению проблемы разделения речевых сигналов, которое может применяться во многих областях, например, в слуховых аппаратах или в приложениях по обработке аудио- и видеоданных. В данной работе описаны основные подходы решения этой проблемы: традиционные алгоритмы CASA и алгоритмы, основанные на глубоком обучении. Проанализированы их достоинства и недостатки. Выбран подход, основанный на глубоких нейронных сетях и использующей в качестве входных данных аудио- и визуальные признаки. Сформулированы требования к нейросетевой модели и к сервису, предоставляющего доступ к ней. Описан подход обучения модели. Разработана и реализована на основе парадигмы очереди сообщений и контейниризации масштабируемая архитектура сервиса, которая обеспечивает эффективную обработку входящих запросов к нейросетевой модели. Проанализированы результаты модели с помощью оценочных метрик и медиаданных, согласно которым модель научилась хорошо выделять один речевой сигнал из звуковой смеси. Проведено нагрузочное тестирование сервиса для оценки его производительности и стабильности.
Graduation qualification work is devoted to solve the problem of speech separation. Solution of this problem can be useful for hearing aids or in audio and video processing applications. In this paper, the basic approaches solving this problem are described, namely traditional CASA algorithms and algorithms based on deep learning. Their advantages and disadvantages are analyzed. The approach based on deep neural networks using audio and visual data as input data is chosen. The requirements to the neural network model and the service providing access to the model are formulated. The model training approach is described. A scalable service architecture is developed and implemented with message queue paradigm and containerization. This architecture provides efficient processing of incoming requests to the neural network model. Model results are analyzed using evaluation metrics and media data, according to which the model has learned to predict speech of one speaker from the sound mix. Service stress testing is performed to assess its performance and stability.
Права на использование объекта хранения
Место доступа | Группа пользователей | Действие | ||||
---|---|---|---|---|---|---|
Локальная сеть ИБК СПбПУ | Все | |||||
Интернет | Авторизованные пользователи СПбПУ | |||||
Интернет | Анонимные пользователи |
Статистика использования
Количество обращений: 11
За последние 30 дней: 0 Подробная статистика |