Детальная информация

Название: Использование алгоритмов транскрибирования и акцентуации русского текста в системе голосового управления: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_01 «Технология разработки и сопровождения качественного программного продукта»
Авторы: Голев Андрей Константинович
Научный руководитель: Малеев Олег Геннадьевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2022
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Нейронные сети; Машинное обучение; Речь — Распознавание; обработка естественного языка; голосовое управление; natural language processing; voice control
УДК: 004.032.26; 004.85; 004.934.1'1
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2023/vr/vr23-729
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\20769

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Выпускная квалификационная работа на тему: «Использование алгоритмов транскрибирования и акцентуации русского текста в системе голосового управления». Данная работа рассматривает создание более точной фонетической транскрипции применяя для этого алгоритмы транскрибирования и акцентуации, а также разработанную нейронную сеть. Создание на основе данной транскрипции акустической модели и ее применение в прикладном приложении с реализованным голосовым управлением, а именно Telegram бота, получающего и хранящая ссылки на Яндекс.Карты с конкретным адресом или построенным маршрутом. Задачи, решаемые в ВКР: Исследование предметной области и открытых библиотек распознавания речи. Изучение существующих методов улучшения алгоритма акцентуации. Разработать нейронную сеть и провести ее обучение улучшив алгоритм акцентуации. Получить транскрипцию и обучить на ее основе акустическую модель. Создать алгоритм сбора тестовых данных и собрать тестовые данные по темам. Провести Сравнение акустической модели с конкурентами. Разработать Telegram бота на java c применением современных библиотек. Применить акустическую модель и транскрипции для голосового управления.

Graduate qualification work on the topic: "Using algorithms for transcribing and accentuation of Russian text in a voice control system". This work is concerned with the creation of a more accurate phonetic transcription, using for this purpose transcribing and accentuation algorithms, as well as a developed neural network. Creating an acoustic model based on this transcription and applying it in an application with implemented voice control, namely a Telegram bot that receives and stores links to Yandex.Maps with a specific address or a constructed route. Tasks to be solved in the EKR: Research of the subject area and open-source speech recognition libraries. Study Existing methods to improve the accentuation algorithm. Develop a neural network and train it to improve the accentuation algorithm. Obtain a transcription and train an acoustic model based on it. Create a test data collection algorithm and collect test data by topic. Conduct a Comparison of the acoustic model with the competitors. Develop a Telegram bot in java using modern libraries. Apply the acoustic model and transcriptions for voice control.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • ВВЕДЕНИЕ
  • ГЛАВА 1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ И ОТКРЫТЫХ БИБЛИОТЕК РАСПОЗНОВАНИЯ РЕЧИ
    • 1.1 Структура речи
    • 1.2 Распознавание речи
    • 1.3 Обзор Открытых библиотек распознавания речи
      • 1.3.1 HTK
      • 1.3.2 Kaldi
      • 1.3.3 Julius
      • 1.3.4 CMU Sphinx
    • 1.4 Архитектура Sphinx4
    • 1.5 Алгоритмы СMU Sphinx
      • 1.5.1 Получение МЧКК
      • 1.5.2 Скрытые Марковские Модели
      • 1.5.3 Алгоритм Витерби
    • 1.6 Исследования по транскрибированию и акцентуации
  • ГЛАВА 2. ПРИМЕНЕНИЕ АЛГОРИТМОВ ТРАНСКРИБИРОВАНИЯ И АКЦЕНТУАЦИИ
  • 2.1 Транскрибирование
  • 2.1.1. Алгоритм транскрибирования
  • 2.2Акцентуация
    • 2.2.1 Общие подходы к Нейронным сетям
    • 2.2.2 Рекуррентные нейронные сети
    • 2.2.3 LSTM
    • 2.2.4 GRU
    • 2.2.5 CBOW
    • 2.2.6 Разработанная нейронная сеть
    • 2.2.6 Алгоритм создания словаря
    • 2.3 Архитектура приложения
    • 2.4 Инструментарий и технологии разработки приложения
      • 2.4.1 Среда разработки.
      • 2.4.2 система автоматизации сборки
      • 2.4.3 Фреймворк
      • 2.4.5 FFmpeg
      • 2.4.6 Telegram
      • 2.4.7 Selenium
      • 2.4.8 Sphinx4
      • 2.5 Сбор тестовых данных для сравнения акустических систем
  • ГЛАВА 3. Анализ работы и результаты
    • 3.1 Тестирование и сравнение с конкурентами
    • 3.2 Сравнение Акустических моделей и словарей на тестовой выборке.
    • 3.2 Результаты работы Telegram бота
  • Заключение
  • Список использованных источников

Статистика использования

stat Количество обращений: 8
За последние 30 дней: 0
Подробная статистика