Автоматическое определение акцента по речи на иностранном языке: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения»

Лесничая, Мария Дмитриевна

Вход в систему

Детальная информация

	Таблица	Карточка	RUSMARC

Название:	Автоматическое определение акцента по речи на иностранном языке: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения»
Авторы:	Лесничая Мария Дмитриевна
Научный руководитель:	Богач Наталья Владимировна
Другие авторы:	Нестеров Сергей Александрович
Организация:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения:	Санкт-Петербург, 2021
Коллекция:	Выпускные квалификационные работы; Общая коллекция
Тематика:	автоматическое распознавание речи; автоматическое определение акцента; сверточные нейронные сети; извлечение признаков; automatic speech recognition; automatic accent recognition; convolutional neural networks; feature extraction
Тип документа:	Выпускная квалификационная работа бакалавра
Тип файла:	PDF
Язык:	Русский
Уровень высшего образования:	Бакалавриат
Код специальности ФГОС:	09.03.01
Группа специальностей ФГОС:	090000 - Информатика и вычислительная техника
Ссылки:	Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI:	10.18720/SPBPU/3/2021/vr/vr21-724
Права доступа:	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи:	ru\spstu\vkr\11741

Разрешенные действия: –

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Проблема распознавания акцента получила большое внимание с развитием ASR систем, поскольку обычные акустические языковые модели, адаптированные для соответствия стандартному языковому корпусу, не удовлетворяют требованиям к распознаванию при применении к акцентированной речи. Поскольку нейронные сети архитектуры CNN эффективны при решении задач распознавания акцента, такая модель исследована в данной выпускной квалификационной работе. Модель была обучена на различных признаках аудиосигналов, извлеченных из записей набора данных Speech Accent Archive. Экспериментально показано, что добавление к MFCC дополнительной информации об аудиосигналах в некоторых случаях приводит к повышению точности классификации акцента. Получено, что применение мел-спектрограмм с линейным масштабом амплитуды для рассматриваемого набора данных является более эффективным при решении задачи классификации акцента, чем MFCC. Использование модели классификатора с мел-спектрограммами в качестве входных признаков оценивается с помощью таких метрик как матрицы ошибок, общая точность, точность, полнота и F1, и проводится сравнение полученной точности с существующими на данный момент решениями в области.

The problem of accent recognition has received a lot of attention with the development of ASR systems, since conventional acoustic language models, adapted to fit the standard language corpus, do not fulfill the recognition requirements when applied to accented speech. Since neural networks of CNN architecture have proven to be effective in solving a problem of accent recognition, such a model is investigated in this thesis. The model has been trained on various audio features extracted from the Speech Accent Archive dataset. It has been experimentally shown that adding further information about audio signals to the MFCC in some cases leads to an increase in the accuracy of the accent classification. It was found that the use of linear mel-scaled spectrograms of amplitude for a dataset chosen appears more effective in accent classification problem solving than MFCC. The use of a classifier model with mel-scaled spectrograms as input features is evaluated using metrics such as confusion matrices, overall accuracy, precision, recall and F1, and the reached accuracy is compared with current solutions in the field.

Права на использование объекта хранения

	Место доступа		Группа пользователей		Действие
	Локальная сеть ИБК СПбПУ		Все
	Интернет		Авторизованные пользователи СПбПУ
	Интернет		Анонимные пользователи

ВВЕДЕНИЕ
1. Модель для определения акцента
- 1.1. Методы автоматической классификации акцента
- 1.2. Сверточные нейронные сети
- 1.3. Представление входных данных
- 1.4. Пакетная нормализация
2. Автоматическое определение акцента
- 2.1. Подготовка окружения
  - 2.1.1. Набор данных
  - 2.1.2. Подготовка аудиофайлов к распознаванию
  - 2.1.3. Модель классификатора
  - 2.1.4. Используемые инструменты
- 2.2. Выбор гиперпараметров и регуляризация
  - 2.2.1. Размеры фильтров
  - 2.2.2. Аугментация данных
- 2.3. Признаки аудиосигналов
  - 2.3.1. Размерность входных данных
  - 2.3.2. MFCC в сочетании с дополнительными признаками
  - 2.3.3. Мел-спектрограммы
3. Оценка модели определения акцента
- 3.1. Оценка качества классификации
  - 3.1.1. Матрицы ошибок
  - 3.1.2. Точность и полнота, F1
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ. ЛИСТИНГИ КОДА

Статистика использования

Количество обращений: 4
За последние 30 дней: 0
Подробная статистика

Детальная информация

Аннотация

Права на использование объекта хранения

Оглавление

Статистика использования