Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Проблема распознавания акцента получила большое внимание с развитием ASR систем, поскольку обычные акустические языковые модели, адаптированные для соответствия стандартному языковому корпусу, не удовлетворяют требованиям к распознаванию при применении к акцентированной речи. Поскольку нейронные сети архитектуры CNN эффективны при решении задач распознавания акцента, такая модель исследована в данной выпускной квалификационной работе. Модель была обучена на различных признаках аудиосигналов, извлеченных из записей набора данных Speech Accent Archive. Экспериментально показано, что добавление к MFCC дополнительной информации об аудиосигналах в некоторых случаях приводит к повышению точности классификации акцента. Получено, что применение мел-спектрограмм с линейным масштабом амплитуды для рассматриваемого набора данных является более эффективным при решении задачи классификации акцента, чем MFCC. Использование модели классификатора с мел-спектрограммами в качестве входных признаков оценивается с помощью таких метрик как матрицы ошибок, общая точность, точность, полнота и F1, и проводится сравнение полученной точности с существующими на данный момент решениями в области.
The problem of accent recognition has received a lot of attention with the development of ASR systems, since conventional acoustic language models, adapted to fit the standard language corpus, do not fulfill the recognition requirements when applied to accented speech. Since neural networks of CNN architecture have proven to be effective in solving a problem of accent recognition, such a model is investigated in this thesis. The model has been trained on various audio features extracted from the Speech Accent Archive dataset. It has been experimentally shown that adding further information about audio signals to the MFCC in some cases leads to an increase in the accuracy of the accent classification. It was found that the use of linear mel-scaled spectrograms of amplitude for a dataset chosen appears more effective in accent classification problem solving than MFCC. The use of a classifier model with mel-scaled spectrograms as input features is evaluated using metrics such as confusion matrices, overall accuracy, precision, recall and F1, and the reached accuracy is compared with current solutions in the field.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All |
![]() ![]() ![]() |
||||
Internet | Authorized users SPbPU |
![]() ![]() ![]() |
||||
![]() |
Internet | Anonymous |
Table of Contents
- ВВЕДЕНИЕ
- 1. Модель для определения акцента
- 1.1. Методы автоматической классификации акцента
- 1.2. Сверточные нейронные сети
- 1.3. Представление входных данных
- 1.4. Пакетная нормализация
- 2. Автоматическое определение акцента
- 2.1. Подготовка окружения
- 2.1.1. Набор данных
- 2.1.2. Подготовка аудиофайлов к распознаванию
- 2.1.3. Модель классификатора
- 2.1.4. Используемые инструменты
- 2.2. Выбор гиперпараметров и регуляризация
- 2.2.1. Размеры фильтров
- 2.2.2. Аугментация данных
- 2.3. Признаки аудиосигналов
- 2.3.1. Размерность входных данных
- 2.3.2. MFCC в сочетании с дополнительными признаками
- 2.3.3. Мел-спектрограммы
- 2.1. Подготовка окружения
- 3. Оценка модели определения акцента
- 3.1. Оценка качества классификации
- 3.1.1. Матрицы ошибок
- 3.1.2. Точность и полнота, F1
- 3.1. Оценка качества классификации
- ЗАКЛЮЧЕНИЕ
- СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
- ПРИЛОЖЕНИЕ. ЛИСТИНГИ КОДА
Usage statistics
|
Access count: 4
Last 30 days: 0 Detailed usage statistics |