Детальная информация

Название: Автоматическая транскрипция мелодии песни: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения»
Авторы: Свечников Роман Александрович
Научный руководитель: Богач Наталья Владимировна
Другие авторы: Нестеров Сергей Александрович
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2021
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: автоматическая транскрипция вокала; иерархическая скрытая полумарковская модель; музыкальная модель; automatic singing transcription; hierarchical hidden semi-Markovian model; musical score model
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.01
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-710
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\11724

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Целью данной работы является сравнение современных методов автоматической транскрипции мелодии песни (вокала) разных классов: на основе иерархической скрытой полумарковской модели (HHSMM) и на основе сверточной сети архитектуры ResNet-18. Был также рассмотрен метод транскрипции музыки общего назначения из библиотеки Essentia для выявления возможных преимуществ специализированных методов. Для количественной оценки использовались метрики, утвержденные организацией MIREX. В данной работе воспроизводится метод транскрипции вокала с использованием музыкальной модели на основе HHSMM. Данные о производительности метода на основе ResNet-18 были получены из статьи авторов метода, так как ими использовались те же метрики и данные. Эксперимент показал, что специализированные методы HHSMM и ResNet-18 справились с задачей транскрипции вокала лучше, нежели метод общего назначения. При этом метод HHSMM не дал значительного улучшения, в то время как ResNet-18 улучшил показатели на 15-20 процентов.

The goal of this work is to compare modern automatic singing transcription methods of different classes: the one based on a hierarchical hidden semi-Markovian model and the other based on a convolutional network with the ResNet-18 architecture. The general-purpose music transcription method of the Essentia library was considered as a baseline to identify the potential benefits of specialized methods. To evaluate these methods, metrics approved by MIREX were used. This work reproduces a vocal transcription method based on HHSMM with a musical score model. The ResNet-18 based method performance was taken from the original publication, since they used the same metrics and dataset to evaluate the method. The experiment showed that the specialized methods HHSMM and ResNet-18 coped with the task of vocal transcription better than the general-purpose method. At the same time, the HHSMM method did not yield a significant improvement, while ResNet-18 improved performance by 15-20 percent.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Внешние организации №2 Все Прочитать
Внешние организации №1 Все
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
Интернет Авторизованные пользователи (не СПбПУ, №2) Прочитать
Интернет Авторизованные пользователи (не СПбПУ, №1)
-> Интернет Анонимные пользователи

Оглавление

  • СПИСОК ОБОЗНАЧЕНИЙ И СОКРАЩЕНИЙ
  • ВВЕДЕНИЕ
  • 1. Метод транскрипции вокала на основе HHSMM
    • 1.1. Музыкальная модель
    • 1.2. Модель кривой F0
    • 1.3. Байесовская формулировка
    • 1.4. Вывод апостериорного распределения модели
      • 1.4.1. Обучение без учителя
      • 1.4.2. Апостериорная оптимизация
  • 2. Реализация метода HHSMM
    • 2.1. Окружение и инструменты
    • 2.2. Организация кода
    • 2.3. Оптимизация
      • 2.3.1. Введение ограничений на модель
      • 2.3.2. Оптимизация кода
      • 2.3.3. Проверка соответствия реализации модели
  • 3. Оценка и сравнение методов транскрипции вокала
    • 3.1. Набор данных
    • 3.2. Метрики
    • 3.3. Тестирование
    • 3.4. Результаты
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
  • ПРИЛОЖЕНИЕ. ЛИСТИНГИ

Статистика использования

stat Количество обращений: 12
За последние 30 дней: 1
Подробная статистика