Разработка автоматизированной системы расшифровки аудиозаписи и подготовки стенограммы: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения» = Development of an automated system for decoding audio recordings and preparing transcripts

Простаков, Степан Николаевич

Детальная информация

Название	Разработка автоматизированной системы расшифровки аудиозаписи и подготовки стенограммы: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения» = Development of an automated system for decoding audio recordings and preparing transcripts
Авторы	Простаков Степан Николаевич
Научный руководитель	Никитин Кирилл Вячеславович
Другие авторы	Нестеров Сергей Александрович
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения	Санкт-Петербург, 2020
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	разделение источников сигнала ; слепое разделение источников звука ; искусственные нейронные сети ; аудиосигналы ; стенограмма ; расшифровка аудиозаписи ; распознавание речи ; signal source separation ; blind audio source separation ; artificial neural networks ; audio signals ; verbatim report ; audio transcript ; speech recognition
Тип документа	Выпускная квалификационная работа бакалавра
Язык	Русский
Уровень высшего образования	Бакалавриат
Код специальности ФГОС	09.03.01
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
Ссылки	Отзыв руководителя ; Рецензия ; Отчет о проверке на объем и корректность внешних заимствований
DOI	10.18720/SPBPU/3/2020/vr/vr20-1150
Права доступа	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи	ru\spstu\vkr\6383
Дата создания записи	02.07.2020

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Тема выпускной квалификационной работы: «Разработка автоматизированной системы расшифровки аудиозаписи и подготовки стенограммы» Данная работа посвящена исследованию способов расшифровки записи разговора, а также реализации системы, позволяющей подготавливать стенограмму. Основной особенностью работы, являются входные данные системы, которые представляют собой записи двух одновременно говорящих человек. Для достижения поставленной цели вначале были изучены основные подходы и методы, применяемые к задаче слепого разделения источников звука. Следующим этапом была разработка алгоритма, наиболее подходящего для решения поставленной задачи. Синтез данного алгоритма был сделан на основе результатов проведенного исследования. Далее в работе выполнена реализация системы, позволяющей разделять входной аудиосигнал на отдельные голоса и получать их текстовое представление. В результате было проведено тестирование реализованной системы и получена оценка качества ее функционирования.

The subject of the graduate qualification work is "Development of an automated system for decoding audio recordings and preparing transcripts". This work is devoted to the study of methods of decoding the recording of a conversation, as well as the implementation of a system that allows you to prepare a transcript. The main feature of the work is the input data of the system, which are records of two simultaneously speaking people. Thus, to achieve this goal, the basic approaches and methods applied to the problem of blind audio source separation were studied. The next step is to develop an algorithm that is most suitable for solving the problem. The choice of this algorithm was made on the basis of research. Further in this paper, an implementation of the system is presented that allows you to separate the input audio signal into different voices and receive their textual representation. As a result, the developed algorithm was evaluated by testing the system implementation.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

УСЛОВНЫЕ ОБОЗНАЧЕНИЯ, ТЕРМИНЫ И СОКРАЩЕНИЯ
ВВЕДЕНИЕ
1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ
- 1.1. Общий подход к решению задачи
- 1.2. Слепое разделение источников
- 1.3. Вычислительные методы
  - 1.3.1. Анализ независимых компонент
  - 1.3.2. Байесовский подход
  - 1.3.3. Неотрицательное матричное разложение
- 1.4. Фильтрация как разделение источников
- 1.5. Глубокое обучение
  - 1.5.1. Полносвязные нейронные сети
  - 1.5.2. Рекуррентные нейронные сети
  - 1.5.3. Сверточные нейронные сети
- 1.6. Архитектуры нейронных сетей применяемые в задачах разделения источников
  - 1.6.1. Модель РНС с частотно-временной маской
  - 1.6.2. ИНС разделения аудио во временной области
  - 1.6.3. Сверточная ИНС разделения аудио во временной области
  - 1.6.4. Двунаправленная РНС
- 1.7. Распознавание речи
- 1.8. Выводы
2. МАТЕМАТИЧЕСКОЕ ОПИСАНИЕ ИСПОЛЬЗУЕМЫХ МЕТОДОВ
- 2.1. Обработка цифрового сигнала
  - 2.1.1. Преобразование Фурье
  - 2.1.2. Оконное преобразование Фурье
- 2.2. Математическое описание моделей нейронных сетей
  - 2.2.1. Описание модели РНС с частотно-временной маской
  - 2.2.2. Описание модели двунаправленной РНС
- 2.3. Масштабно-инвариантное отношение источника к шуму
3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ СИСТЕМЫ
- 3.1. Используемые инструменты
- 3.2. Основные особенности программной реализации ИНС при помощи Keras
  - 3.2.1. Модель
  - 3.2.2. Функция потерь
  - 3.2.3. Оптимизатор
- 3.3. Исходные данные
- 3.4. Реализация сети РНС с частотно-временной маской
  - 3.4.1. Обоснование выбора данной архитектуры
  - 3.4.2. Подготовка входных данных
  - 3.4.3. Реализация сети
- 3.5. Реализация двунаправленной РНС
  - 3.5.1. Обоснование выбора данной архитектуры
  - 3.5.2. Подготовка входных данных
  - 3.5.3. Реализация сети
- 3.6. Распознавание речи
- 3.7. Выводы
4. ТЕСТИРОВАНИЕ СИСТЕМЫ
- 4.1. Описание алгоритма тестирования и результаты
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ 1. МОДЕЛЬ РНС С ЧАСТОТНО-ВРЕМЕННОЙ МАКОЙ В KERAS
ПРИЛОЖЕНИЕ 2. МОДЕЛЬ ДВУНАПРАВЛЕННОЙ РНС В KERAS
ПРИЛОЖЕНИЕ 3. ГЕНЕРАЦИЯ ТРЕНЕРОВОЧНЫХ, ТЕСТОВЫХ И ВАЛИДАЦИОННАХ ДАННЫХ
ПРИЛОЖЕНИЕ 4. ТЕСТИРОВАНИЕ СИСТЕМЫ
ПРИЛОЖЕНИЕ 5. ССЫЛКА НА РЕПОЗИТОРИЙ С ИСХОДНЫМ КОДОМ

Количество обращений: 38
За последние 30 дней: 0

Подробная статистика