Разработка средств разделения одновременно звучащих голосов: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки»

Шахмин, Егор Николаевич

Детальная информация

Название	Разработка средств разделения одновременно звучащих голосов: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки»
Авторы	Шахмин Егор Николаевич
Научный руководитель	Самочадин Александр Викторович
Другие авторы	Трифонов Петр Владимирович
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения	Санкт-Петербург, 2020
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	аудио-визуальное разделение речевых сигналов ; глубокие нейронные сети ; сервис разделения речевых сигналов ; парадигма очереди сообщений ; контейниризация ; audio-visual speech separation ; deep neural networks ; software system for speech separation ; message queue paradigm ; containerization
Тип документа	Выпускная квалификационная работа бакалавра
Тип файла	PDF
Язык	Русский
Уровень высшего образования	Бакалавриат
Код специальности ФГОС	02.03.02
Группа специальностей ФГОС	020000 - Компьютерные и информационные науки
Ссылки	Отзыв руководителя ; Отчет о проверке на объем и корректность внешних заимствований
DOI	10.18720/SPBPU/3/2020/vr/vr20-1129
Права доступа	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи	ru\spstu\vkr\7193
Дата создания записи	23.07.2020

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Выпускная квалификационная работа посвящена решению проблемы разделения речевых сигналов, которое может применяться во многих областях, например, в слуховых аппаратах или в приложениях по обработке аудио- и видеоданных. В данной работе описаны основные подходы решения этой проблемы: традиционные алгоритмы CASA и алгоритмы, основанные на глубоком обучении. Проанализированы их достоинства и недостатки. Выбран подход, основанный на глубоких нейронных сетях и использующей в качестве входных данных аудио- и визуальные признаки. Сформулированы требования к нейросетевой модели и к сервису, предоставляющего доступ к ней. Описан подход обучения модели. Разработана и реализована на основе парадигмы очереди сообщений и контейниризации масштабируемая архитектура сервиса, которая обеспечивает эффективную обработку входящих запросов к нейросетевой модели. Проанализированы результаты модели с помощью оценочных метрик и медиаданных, согласно которым модель научилась хорошо выделять один речевой сигнал из звуковой смеси. Проведено нагрузочное тестирование сервиса для оценки его производительности и стабильности.

Graduation qualification work is devoted to solve the problem of speech separation. Solution of this problem can be useful for hearing aids or in audio and video processing applications. In this paper, the basic approaches solving this problem are described, namely traditional CASA algorithms and algorithms based on deep learning. Their advantages and disadvantages are analyzed. The approach based on deep neural networks using audio and visual data as input data is chosen. The requirements to the neural network model and the service providing access to the model are formulated. The model training approach is described. A scalable service architecture is developed and implemented with message queue paradigm and containerization. This architecture provides efficient processing of incoming requests to the neural network model. Model results are analyzed using evaluation metrics and media data, according to which the model has learned to predict speech of one speaker from the sound mix. Service stress testing is performed to assess its performance and stability.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Количество обращений: 12
За последние 30 дней: 0

Подробная статистика