Разработка автоматизированной системы расшифровки аудиозаписи и подготовки стенограммы: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения»

Простаков, Степан Николаевич

Details

Title	Разработка автоматизированной системы расшифровки аудиозаписи и подготовки стенограммы: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения»
Creators	Простаков Степан Николаевич
Scientific adviser	Никитин Кирилл Вячеславович
Other creators	Нестеров Сергей Александрович
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint	Санкт-Петербург, 2020
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	разделение источников сигнала ; слепое разделение источников звука ; искусственные нейронные сети ; аудиосигналы ; стенограмма ; расшифровка аудиозаписи ; распознавание речи ; signal source separation ; blind audio source separation ; artificial neural networks ; audio signals ; verbatim report ; audio transcript ; speech recognition
Document type	Bachelor graduation qualification work
File type	PDF
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	09.03.01
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
Links	Отзыв руководителя ; Рецензия ; Отчет о проверке на объем и корректность внешних заимствований
DOI	10.18720/SPBPU/3/2020/vr/vr20-1150
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key	ru\spstu\vkr\6383
Record create date	7/2/2020

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Тема выпускной квалификационной работы: «Разработка автоматизированной системы расшифровки аудиозаписи и подготовки стенограммы» Данная работа посвящена исследованию способов расшифровки записи разговора, а также реализации системы, позволяющей подготавливать стенограмму. Основной особенностью работы, являются входные данные системы, которые представляют собой записи двух одновременно говорящих человек. Для достижения поставленной цели вначале были изучены основные подходы и методы, применяемые к задаче слепого разделения источников звука. Следующим этапом была разработка алгоритма, наиболее подходящего для решения поставленной задачи. Синтез данного алгоритма был сделан на основе результатов проведенного исследования. Далее в работе выполнена реализация системы, позволяющей разделять входной аудиосигнал на отдельные голоса и получать их текстовое представление. В результате было проведено тестирование реализованной системы и получена оценка качества ее функционирования.

The subject of the graduate qualification work is "Development of an automated system for decoding audio recordings and preparing transcripts". This work is devoted to the study of methods of decoding the recording of a conversation, as well as the implementation of a system that allows you to prepare a transcript. The main feature of the work is the input data of the system, which are records of two simultaneously speaking people. Thus, to achieve this goal, the basic approaches and methods applied to the problem of blind audio source separation were studied. The next step is to develop an algorithm that is most suitable for solving the problem. The choice of this algorithm was made on the basis of research. Further in this paper, an implementation of the system is presented that allows you to separate the input audio signal into different voices and receive their textual representation. As a result, the developed algorithm was evaluated by testing the system implementation.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

УСЛОВНЫЕ ОБОЗНАЧЕНИЯ, ТЕРМИНЫ И СОКРАЩЕНИЯ
ВВЕДЕНИЕ
1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ
- 1.1. Общий подход к решению задачи
- 1.2. Слепое разделение источников
- 1.3. Вычислительные методы
  - 1.3.1. Анализ независимых компонент
  - 1.3.2. Байесовский подход
  - 1.3.3. Неотрицательное матричное разложение
- 1.4. Фильтрация как разделение источников
- 1.5. Глубокое обучение
  - 1.5.1. Полносвязные нейронные сети
  - 1.5.2. Рекуррентные нейронные сети
  - 1.5.3. Сверточные нейронные сети
- 1.6. Архитектуры нейронных сетей применяемые в задачах разделения источников
  - 1.6.1. Модель РНС с частотно-временной маской
  - 1.6.2. ИНС разделения аудио во временной области
  - 1.6.3. Сверточная ИНС разделения аудио во временной области
  - 1.6.4. Двунаправленная РНС
- 1.7. Распознавание речи
- 1.8. Выводы
2. МАТЕМАТИЧЕСКОЕ ОПИСАНИЕ ИСПОЛЬЗУЕМЫХ МЕТОДОВ
- 2.1. Обработка цифрового сигнала
  - 2.1.1. Преобразование Фурье
  - 2.1.2. Оконное преобразование Фурье
- 2.2. Математическое описание моделей нейронных сетей
  - 2.2.1. Описание модели РНС с частотно-временной маской
  - 2.2.2. Описание модели двунаправленной РНС
- 2.3. Масштабно-инвариантное отношение источника к шуму
3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ СИСТЕМЫ
- 3.1. Используемые инструменты
- 3.2. Основные особенности программной реализации ИНС при помощи Keras
  - 3.2.1. Модель
  - 3.2.2. Функция потерь
  - 3.2.3. Оптимизатор
- 3.3. Исходные данные
- 3.4. Реализация сети РНС с частотно-временной маской
  - 3.4.1. Обоснование выбора данной архитектуры
  - 3.4.2. Подготовка входных данных
  - 3.4.3. Реализация сети
- 3.5. Реализация двунаправленной РНС
  - 3.5.1. Обоснование выбора данной архитектуры
  - 3.5.2. Подготовка входных данных
  - 3.5.3. Реализация сети
- 3.6. Распознавание речи
- 3.7. Выводы
4. ТЕСТИРОВАНИЕ СИСТЕМЫ
- 4.1. Описание алгоритма тестирования и результаты
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ 1. МОДЕЛЬ РНС С ЧАСТОТНО-ВРЕМЕННОЙ МАКОЙ В KERAS
ПРИЛОЖЕНИЕ 2. МОДЕЛЬ ДВУНАПРАВЛЕННОЙ РНС В KERAS
ПРИЛОЖЕНИЕ 3. ГЕНЕРАЦИЯ ТРЕНЕРОВОЧНЫХ, ТЕСТОВЫХ И ВАЛИДАЦИОННАХ ДАННЫХ
ПРИЛОЖЕНИЕ 4. ТЕСТИРОВАНИЕ СИСТЕМЫ
ПРИЛОЖЕНИЕ 5. ССЫЛКА НА РЕПОЗИТОРИЙ С ИСХОДНЫМ КОДОМ

Access count: 38
Last 30 days: 0

Detailed usage statistics