Details

Title: Автоматическое определение акцента по речи на иностранном языке: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения»
Creators: Лесничая Мария Дмитриевна
Scientific adviser: Богач Наталья Владимировна
Other creators: Нестеров Сергей Александрович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2021
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: автоматическое распознавание речи; автоматическое определение акцента; сверточные нейронные сети; извлечение признаков; automatic speech recognition; automatic accent recognition; convolutional neural networks; feature extraction
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 09.03.01
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-724
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\11741

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Проблема распознавания акцента получила большое внимание с развитием ASR систем, поскольку обычные акустические языковые модели, адаптированные для соответствия стандартному языковому корпусу, не удовлетворяют требованиям к распознаванию при применении к акцентированной речи. Поскольку нейронные сети архитектуры CNN эффективны при решении задач распознавания акцента, такая модель исследована в данной выпускной квалификационной работе. Модель была обучена на различных признаках аудиосигналов, извлеченных из записей набора данных Speech Accent Archive. Экспериментально показано, что добавление к MFCC дополнительной информации об аудиосигналах в некоторых случаях приводит к повышению точности классификации акцента. Получено, что применение мел-спектрограмм с линейным масштабом амплитуды для рассматриваемого набора данных является более эффективным при решении задачи классификации акцента, чем MFCC. Использование модели классификатора с мел-спектрограммами в качестве входных признаков оценивается с помощью таких метрик как матрицы ошибок, общая точность, точность, полнота и F1, и проводится сравнение полученной точности с существующими на данный момент решениями в области.

The problem of accent recognition has received a lot of attention with the development of ASR systems, since conventional acoustic language models, adapted to fit the standard language corpus, do not fulfill the recognition requirements when applied to accented speech. Since neural networks of CNN architecture have proven to be effective in solving a problem of accent recognition, such a model is investigated in this thesis. The model has been trained on various audio features extracted from the Speech Accent Archive dataset. It has been experimentally shown that adding further information about audio signals to the MFCC in some cases leads to an increase in the accuracy of the accent classification. It was found that the use of linear mel-scaled spectrograms of amplitude for a dataset chosen appears more effective in accent classification problem solving than MFCC. The use of a classifier model with mel-scaled spectrograms as input features is evaluated using metrics such as confusion matrices, overall accuracy, precision, recall and F1, and the reached accuracy is compared with current solutions in the field.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Table of Contents

  • ВВЕДЕНИЕ
  • 1. Модель для определения акцента
    • 1.1. Методы автоматической классификации акцента
    • 1.2. Сверточные нейронные сети
    • 1.3. Представление входных данных
    • 1.4. Пакетная нормализация
  • 2. Автоматическое определение акцента
    • 2.1. Подготовка окружения
      • 2.1.1. Набор данных
      • 2.1.2. Подготовка аудиофайлов к распознаванию
      • 2.1.3. Модель классификатора
      • 2.1.4. Используемые инструменты
    • 2.2. Выбор гиперпараметров и регуляризация
      • 2.2.1. Размеры фильтров
      • 2.2.2. Аугментация данных
    • 2.3. Признаки аудиосигналов
      • 2.3.1. Размерность входных данных
      • 2.3.2. MFCC в сочетании с дополнительными признаками
      • 2.3.3. Мел-спектрограммы
  • 3. Оценка модели определения акцента
    • 3.1. Оценка качества классификации
      • 3.1.1. Матрицы ошибок
      • 3.1.2. Точность и полнота, F1
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
  • ПРИЛОЖЕНИЕ. ЛИСТИНГИ КОДА

Usage statistics

stat Access count: 4
Last 30 days: 0
Detailed usage statistics