Details

Title: Разработка средств разделения одновременно звучащих голосов: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки»
Creators: Шахмин Егор Николаевич
Scientific adviser: Самочадин Александр Викторович
Other creators: Трифонов Петр Владимирович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: аудио-визуальное разделение речевых сигналов; глубокие нейронные сети; сервис разделения речевых сигналов; парадигма очереди сообщений; контейниризация; audio-visual speech separation; deep neural networks; software system for speech separation; message queue paradigm; containerization
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 02.03.02
Speciality group (FGOS): 020000 - Компьютерные и информационные науки
Links: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1129
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\7193

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Выпускная квалификационная работа посвящена решению проблемы разделения речевых сигналов, которое может применяться во многих областях, например, в слуховых аппаратах или в приложениях по обработке аудио- и видеоданных. В данной работе описаны основные подходы решения этой проблемы: традиционные алгоритмы CASA и алгоритмы, основанные на глубоком обучении. Проанализированы их достоинства и недостатки. Выбран подход, основанный на глубоких нейронных сетях и использующей в качестве входных данных аудио- и визуальные признаки. Сформулированы требования к нейросетевой модели и к сервису, предоставляющего доступ к ней. Описан подход обучения модели. Разработана и реализована на основе парадигмы очереди сообщений и контейниризации масштабируемая архитектура сервиса, которая обеспечивает эффективную обработку входящих запросов к нейросетевой модели. Проанализированы результаты модели с помощью оценочных метрик и медиаданных, согласно которым модель научилась хорошо выделять один речевой сигнал из звуковой смеси. Проведено нагрузочное тестирование сервиса для оценки его производительности и стабильности.

Graduation qualification work is devoted to solve the problem of speech separation. Solution of this problem can be useful for hearing aids or in audio and video processing applications. In this paper, the basic approaches solving this problem are described, namely traditional CASA algorithms and algorithms based on deep learning. Their advantages and disadvantages are analyzed. The approach based on deep neural networks using audio and visual data as input data is chosen. The requirements to the neural network model and the service providing access to the model are formulated. The model training approach is described. A scalable service architecture is developed and implemented with message queue paradigm and containerization. This architecture provides efficient processing of incoming requests to the neural network model. Model results are analyzed using evaluation metrics and media data, according to which the model has learned to predict speech of one speaker from the sound mix. Service stress testing is performed to assess its performance and stability.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 11
Last 30 days: 0
Detailed usage statistics