Details

Title: Автоматическая транскрипция мелодии песни: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения»
Creators: Свечников Роман Александрович
Scientific adviser: Богач Наталья Владимировна
Other creators: Нестеров Сергей Александрович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2021
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: автоматическая транскрипция вокала; иерархическая скрытая полумарковская модель; музыкальная модель; automatic singing transcription; hierarchical hidden semi-Markovian model; musical score model
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 09.03.01
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-710
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\11724

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Целью данной работы является сравнение современных методов автоматической транскрипции мелодии песни (вокала) разных классов: на основе иерархической скрытой полумарковской модели (HHSMM) и на основе сверточной сети архитектуры ResNet-18. Был также рассмотрен метод транскрипции музыки общего назначения из библиотеки Essentia для выявления возможных преимуществ специализированных методов. Для количественной оценки использовались метрики, утвержденные организацией MIREX. В данной работе воспроизводится метод транскрипции вокала с использованием музыкальной модели на основе HHSMM. Данные о производительности метода на основе ResNet-18 были получены из статьи авторов метода, так как ими использовались те же метрики и данные. Эксперимент показал, что специализированные методы HHSMM и ResNet-18 справились с задачей транскрипции вокала лучше, нежели метод общего назначения. При этом метод HHSMM не дал значительного улучшения, в то время как ResNet-18 улучшил показатели на 15-20 процентов.

The goal of this work is to compare modern automatic singing transcription methods of different classes: the one based on a hierarchical hidden semi-Markovian model and the other based on a convolutional network with the ResNet-18 architecture. The general-purpose music transcription method of the Essentia library was considered as a baseline to identify the potential benefits of specialized methods. To evaluate these methods, metrics approved by MIREX were used. This work reproduces a vocal transcription method based on HHSMM with a musical score model. The ResNet-18 based method performance was taken from the original publication, since they used the same metrics and dataset to evaluate the method. The experiment showed that the specialized methods HHSMM and ResNet-18 coped with the task of vocal transcription better than the general-purpose method. At the same time, the HHSMM method did not yield a significant improvement, while ResNet-18 improved performance by 15-20 percent.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Table of Contents

  • СПИСОК ОБОЗНАЧЕНИЙ И СОКРАЩЕНИЙ
  • ВВЕДЕНИЕ
  • 1. Метод транскрипции вокала на основе HHSMM
    • 1.1. Музыкальная модель
    • 1.2. Модель кривой F0
    • 1.3. Байесовская формулировка
    • 1.4. Вывод апостериорного распределения модели
      • 1.4.1. Обучение без учителя
      • 1.4.2. Апостериорная оптимизация
  • 2. Реализация метода HHSMM
    • 2.1. Окружение и инструменты
    • 2.2. Организация кода
    • 2.3. Оптимизация
      • 2.3.1. Введение ограничений на модель
      • 2.3.2. Оптимизация кода
      • 2.3.3. Проверка соответствия реализации модели
  • 3. Оценка и сравнение методов транскрипции вокала
    • 3.1. Набор данных
    • 3.2. Метрики
    • 3.3. Тестирование
    • 3.4. Результаты
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
  • ПРИЛОЖЕНИЕ. ЛИСТИНГИ

Usage statistics

stat Access count: 17
Last 30 days: 0
Detailed usage statistics