Детальная информация

Название: Разработка автоматизированной системы расшифровки аудиозаписи и подготовки стенограммы: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения»
Авторы: Простаков Степан Николаевич
Научный руководитель: Никитин Кирилл Вячеславович
Другие авторы: Нестеров Сергей Александрович
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: разделение источников сигнала; слепое разделение источников звука; искусственные нейронные сети; аудиосигналы; стенограмма; расшифровка аудиозаписи; распознавание речи; signal source separation; blind audio source separation; artificial neural networks; audio signals; verbatim report; audio transcript; speech recognition
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.01
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1150
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\6383

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тема выпускной квалификационной работы: «Разработка автоматизированной системы расшифровки аудиозаписи и подготовки стенограммы» Данная работа посвящена исследованию способов расшифровки записи разговора, а также реализации системы, позволяющей подготавливать стенограмму. Основной особенностью работы, являются входные данные системы, которые представляют собой записи двух одновременно говорящих человек. Для достижения поставленной цели вначале были изучены основные подходы и методы, применяемые к задаче слепого разделения источников звука. Следующим этапом была разработка алгоритма, наиболее подходящего для решения поставленной задачи. Синтез данного алгоритма был сделан на основе результатов проведенного исследования. Далее в работе выполнена реализация системы, позволяющей разделять входной аудиосигнал на отдельные голоса и получать их текстовое представление. В результате было проведено тестирование реализованной системы и получена оценка качества ее функционирования.

The subject of the graduate qualification work is "Development of an automated system for decoding audio recordings and preparing transcripts". This work is devoted to the study of methods of decoding the recording of a conversation, as well as the implementation of a system that allows you to prepare a transcript. The main feature of the work is the input data of the system, which are records of two simultaneously speaking people. Thus, to achieve this goal, the basic approaches and methods applied to the problem of blind audio source separation were studied. The next step is to develop an algorithm that is most suitable for solving the problem. The choice of this algorithm was made on the basis of research. Further in this paper, an implementation of the system is presented that allows you to separate the input audio signal into different voices and receive their textual representation. As a result, the developed algorithm was evaluated by testing the system implementation.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • УСЛОВНЫЕ ОБОЗНАЧЕНИЯ, ТЕРМИНЫ И СОКРАЩЕНИЯ
  • ВВЕДЕНИЕ
  • 1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ
    • 1.1. Общий подход к решению задачи
    • 1.2. Слепое разделение источников
    • 1.3. Вычислительные методы
      • 1.3.1. Анализ независимых компонент
      • 1.3.2. Байесовский подход
      • 1.3.3. Неотрицательное матричное разложение
    • 1.4. Фильтрация как разделение источников
    • 1.5. Глубокое обучение
      • 1.5.1. Полносвязные нейронные сети
      • 1.5.2. Рекуррентные нейронные сети
      • 1.5.3. Сверточные нейронные сети
    • 1.6. Архитектуры нейронных сетей применяемые в задачах разделения источников
      • 1.6.1. Модель РНС с частотно-временной маской
      • 1.6.2. ИНС разделения аудио во временной области
      • 1.6.3. Сверточная ИНС разделения аудио во временной области
      • 1.6.4. Двунаправленная РНС
    • 1.7. Распознавание речи
    • 1.8. Выводы
  • 2. МАТЕМАТИЧЕСКОЕ ОПИСАНИЕ ИСПОЛЬЗУЕМЫХ МЕТОДОВ
    • 2.1. Обработка цифрового сигнала
      • 2.1.1. Преобразование Фурье
      • 2.1.2. Оконное преобразование Фурье
    • 2.2. Математическое описание моделей нейронных сетей
      • 2.2.1. Описание модели РНС с частотно-временной маской
      • 2.2.2. Описание модели двунаправленной РНС
    • 2.3. Масштабно-инвариантное отношение источника к шуму
  • 3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ СИСТЕМЫ
    • 3.1. Используемые инструменты
    • 3.2. Основные особенности программной реализации ИНС при помощи Keras
      • 3.2.1. Модель
      • 3.2.2. Функция потерь
      • 3.2.3. Оптимизатор
    • 3.3. Исходные данные
    • 3.4. Реализация сети РНС с частотно-временной маской
      • 3.4.1. Обоснование выбора данной архитектуры
      • 3.4.2. Подготовка входных данных
      • 3.4.3. Реализация сети
    • 3.5. Реализация двунаправленной РНС
      • 3.5.1. Обоснование выбора данной архитектуры
      • 3.5.2. Подготовка входных данных
      • 3.5.3. Реализация сети
    • 3.6. Распознавание речи
    • 3.7. Выводы
  • 4. ТЕСТИРОВАНИЕ СИСТЕМЫ
    • 4.1. Описание алгоритма тестирования и результаты
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
  • ПРИЛОЖЕНИЕ 1. МОДЕЛЬ РНС С ЧАСТОТНО-ВРЕМЕННОЙ МАКОЙ В KERAS
  • ПРИЛОЖЕНИЕ 2. МОДЕЛЬ ДВУНАПРАВЛЕННОЙ РНС В KERAS
  • ПРИЛОЖЕНИЕ 3. ГЕНЕРАЦИЯ ТРЕНЕРОВОЧНЫХ, ТЕСТОВЫХ И ВАЛИДАЦИОННАХ ДАННЫХ
  • ПРИЛОЖЕНИЕ 4. ТЕСТИРОВАНИЕ СИСТЕМЫ
  • ПРИЛОЖЕНИЕ 5. ССЫЛКА НА РЕПОЗИТОРИЙ С ИСХОДНЫМ КОДОМ

Статистика использования

stat Количество обращений: 37
За последние 30 дней: 0
Подробная статистика