Детальная информация

Название: Исследование нейросетевых моделей для оценки произношения на английском языке и разработка прототипа мобильного приложения: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»
Авторы: Леснов Андрей Юрьевич
Научный руководитель: Туральчук Константин Анатольевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения: Санкт-Петербург, 2024
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: автоматическая оценка произношения; функция потерь CTC; Nvidia NeMo; ONNX; automatic pronunciation assessment; CTC loss
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.03
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2024/vr/vr24-964
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно: Новинка
Ключ записи: ru\spstu\vkr\27654

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Предмет исследования — нейросетевые модели, применимые для задачи оценки произношения, технологии обучения нейросетевых моделей, технологии разработки Android приложений и имплементации в них предобученных нейронных сетей. Цель исследования — проектирование и реализация рабочего приложения на основе нейросетевой модели, помогающего оценить произношение на английском языке. Методы проведения ВКР — сравнительный, интеллектуальный и статистический анализ, проведение экспериментов, технологии программирования. Результаты ВКР — проведён анализ проблемы оценки произношения, в результате которого выбраны и обучены модели DeepSpeech2 и QuartzNet, показывающие различную степень точности, а также разработан прототип Android приложения, использующий одну из лучших обученных версий QuartzNet. Оценки произношения, данные обученными моделями QuartzNet различной степени точности показали высокую корреляцию с оценками экспертов на наборе данных Speechocean762, а также её стабильный рост по мере улучшения точности моделей. Сравнение разработанного приложения с Microsoft Pronunciation Assessment tool и EnglishPhonetics.net на одинаковых образцах живой и синтезированной речи выявило некоторые проблемы, присущие всем тестируемым программным средствам, но также показало высокую конкурентоспособность разработанного ПО. Наконец, работа приложения была протестирована группой специалистов в области английского языка, которые дали положительные оценки результатам (в среднем 7.7/10). Также они дали рекомендации для дальнейших доработок и улучшений. Область применения результатов ВКР — программные средства для тренировки произношения на английском языке. Разработанное приложение может быть использовано для личной практики и улучшения уровня владения английским языком.

Subject of the research — application of neural network models for pronunciation assessment, technologies for training neural network models, technologies for developing Android applications and implementation pre-trained neural networks to them. Purpose of the research — design and develop of a working application based on a neural network model that helps evaluate pronunciation in English. Methods for conducting of the graduate qualification work — comparative, intellectual and statistical analysis, conducting experiments, programming technologies. The results of the graduate qualification work — I analysed the problem of pronunciation assessment, as a result of which DeepSpeech2 and QuartzNet models were selected and trained, showing varying degrees of accuracy. And developed a prototype Android application, using one of the best trained versions of QuartzNet. Pronunciation scores produced by trained QuartzNet models of varying degrees of accuracy on the Speechocean762 dataset showed high correlation with expert ratings from the metadata, as well as a steady increase as model accuracy improved. Comparison of the developed application with the Microsoft Pronunciation Assessment tool and EnglishPhonetics.net on the same samples of live and synthesized speech revealed some problems inherent in all tested software, but also showed high competitiveness of the developed software. Finally, the application was tested by a group of English language professionals, who positively evaluated the results (average estimate 7.7/10). They also suggested some areas for further development and improvement. Scope of application of the results — software tools for computer-assisted pronunciation training in English. The developed application can be used for personal practice and improvement of English language proficiency.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • Исследование нейросетевых моделей для оценки произношения на английском языке и разработка прототипа мобильного приложения
    • Введение
    • 1. Проблема оценки произношения и обзор программных средств
    • 2. Обработка звука, архитектуры ASR и наборы данных
    • 3. Акустические модели для оценки произношения
    • 4. Проектирование и разработка мобильного приложения на Xamarin
    • 5. Тестирование и апробация
    • Заключение
    • Список использованных источников
    • Приложение 1. Программный код для обучения моделей
    • Приложение 2. Программный код мобильного приложения
    • Приложение 3. Програмный код для тестирования
    • Приложение 4. Дополнительные материалы

Статистика использования

stat Количество обращений: 2
За последние 30 дней: 0
Подробная статистика