Details

Title: Разработка автоматизированной системы расшифровки аудиозаписи и подготовки стенограммы: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения»
Creators: Простаков Степан Николаевич
Scientific adviser: Никитин Кирилл Вячеславович
Other creators: Нестеров Сергей Александрович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: разделение источников сигнала; слепое разделение источников звука; искусственные нейронные сети; аудиосигналы; стенограмма; расшифровка аудиозаписи; распознавание речи; signal source separation; blind audio source separation; artificial neural networks; audio signals; verbatim report; audio transcript; speech recognition
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Speciality code (FGOS): 09.03.01
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1150
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Тема выпускной квалификационной работы: «Разработка автоматизированной системы расшифровки аудиозаписи и подготовки стенограммы» Данная работа посвящена исследованию способов расшифровки записи разговора, а также реализации системы, позволяющей подготавливать стенограмму. Основной особенностью работы, являются входные данные системы, которые представляют собой записи двух одновременно говорящих человек. Для достижения поставленной цели вначале были изучены основные подходы и методы, применяемые к задаче слепого разделения источников звука. Следующим этапом была разработка алгоритма, наиболее подходящего для решения поставленной задачи. Синтез данного алгоритма был сделан на основе результатов проведенного исследования. Далее в работе выполнена реализация системы, позволяющей разделять входной аудиосигнал на отдельные голоса и получать их текстовое представление. В результате было проведено тестирование реализованной системы и получена оценка качества ее функционирования.

The subject of the graduate qualification work is "Development of an automated system for decoding audio recordings and preparing transcripts". This work is devoted to the study of methods of decoding the recording of a conversation, as well as the implementation of a system that allows you to prepare a transcript. The main feature of the work is the input data of the system, which are records of two simultaneously speaking people. Thus, to achieve this goal, the basic approaches and methods applied to the problem of blind audio source separation were studied. The next step is to develop an algorithm that is most suitable for solving the problem. The choice of this algorithm was made on the basis of research. Further in this paper, an implementation of the system is presented that allows you to separate the input audio signal into different voices and receive their textual representation. As a result, the developed algorithm was evaluated by testing the system implementation.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users Read Print Download
-> Internet Anonymous

Table of Contents

  • УСЛОВНЫЕ ОБОЗНАЧЕНИЯ, ТЕРМИНЫ И СОКРАЩЕНИЯ
  • ВВЕДЕНИЕ
  • 1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ
    • 1.1. Общий подход к решению задачи
    • 1.2. Слепое разделение источников
    • 1.3. Вычислительные методы
      • 1.3.1. Анализ независимых компонент
      • 1.3.2. Байесовский подход
      • 1.3.3. Неотрицательное матричное разложение
    • 1.4. Фильтрация как разделение источников
    • 1.5. Глубокое обучение
      • 1.5.1. Полносвязные нейронные сети
      • 1.5.2. Рекуррентные нейронные сети
      • 1.5.3. Сверточные нейронные сети
    • 1.6. Архитектуры нейронных сетей применяемые в задачах разделения источников
      • 1.6.1. Модель РНС с частотно-временной маской
      • 1.6.2. ИНС разделения аудио во временной области
      • 1.6.3. Сверточная ИНС разделения аудио во временной области
      • 1.6.4. Двунаправленная РНС
    • 1.7. Распознавание речи
    • 1.8. Выводы
  • 2. МАТЕМАТИЧЕСКОЕ ОПИСАНИЕ ИСПОЛЬЗУЕМЫХ МЕТОДОВ
    • 2.1. Обработка цифрового сигнала
      • 2.1.1. Преобразование Фурье
      • 2.1.2. Оконное преобразование Фурье
    • 2.2. Математическое описание моделей нейронных сетей
      • 2.2.1. Описание модели РНС с частотно-временной маской
      • 2.2.2. Описание модели двунаправленной РНС
    • 2.3. Масштабно-инвариантное отношение источника к шуму
  • 3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ СИСТЕМЫ
    • 3.1. Используемые инструменты
    • 3.2. Основные особенности программной реализации ИНС при помощи Keras
      • 3.2.1. Модель
      • 3.2.2. Функция потерь
      • 3.2.3. Оптимизатор
    • 3.3. Исходные данные
    • 3.4. Реализация сети РНС с частотно-временной маской
      • 3.4.1. Обоснование выбора данной архитектуры
      • 3.4.2. Подготовка входных данных
      • 3.4.3. Реализация сети
    • 3.5. Реализация двунаправленной РНС
      • 3.5.1. Обоснование выбора данной архитектуры
      • 3.5.2. Подготовка входных данных
      • 3.5.3. Реализация сети
    • 3.6. Распознавание речи
    • 3.7. Выводы
  • 4. ТЕСТИРОВАНИЕ СИСТЕМЫ
    • 4.1. Описание алгоритма тестирования и результаты
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
  • ПРИЛОЖЕНИЕ 1. МОДЕЛЬ РНС С ЧАСТОТНО-ВРЕМЕННОЙ МАКОЙ В KERAS
  • ПРИЛОЖЕНИЕ 2. МОДЕЛЬ ДВУНАПРАВЛЕННОЙ РНС В KERAS
  • ПРИЛОЖЕНИЕ 3. ГЕНЕРАЦИЯ ТРЕНЕРОВОЧНЫХ, ТЕСТОВЫХ И ВАЛИДАЦИОННАХ ДАННЫХ
  • ПРИЛОЖЕНИЕ 4. ТЕСТИРОВАНИЕ СИСТЕМЫ
  • ПРИЛОЖЕНИЕ 5. ССЫЛКА НА РЕПОЗИТОРИЙ С ИСХОДНЫМ КОДОМ

Usage statistics

stat Access count: 3
Last 30 days: 0
Detailed usage statistics