Details

Title Разработка системы автоматической транскрипции музыкальных фрагментов: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators Иванов Дмитрий Александрович
Scientific adviser Молодяков Сергей Александрович
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint Санкт-Петербург, 2022
Collection Выпускные квалификационные работы; Общая коллекция
Subjects Машинное обучение; Электрические сигналы — Обработка цифровая; распознавание частоты звука; распознавание начала звучания; оценка качества; сравнительный анализ; классификация; pitch estimation; onset detection; quality evaluation; comparative analysis; classification
UDC 004.85; 621.391.037.37
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 09.04.04
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2023/vr/vr23-399
Rights Доступ по паролю из сети Интернет (чтение)
Record key ru\spstu\vkr\20672
Record create date 4/3/2023

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

В данной работе приводится описание предлагаемых методов в области оценки высоты тона в многоголосных мелодиях и отслеживания начала звучания нот в музыкальных фрагментах. В реализации методов использован специальный частотно-зависимый инструмент частотно-временного анализа, называемый RTFI. RTFI может легко и гибко осуществлять частотно-временной анализ с различными частотно-временными разрешениями, например, с разрешением, аналогичным анализатору частоты человеческого уха, а также с равномерным и Constant-Q разрешением. В рамках задачи отслеживания начала звучания нот предлагается два метода, работающих со спектральной плотностью мощности и частотой сигнала. В рамках задачи оценки высоты тона в многоголосии (полифонии) было также предложено два метода, один из которых анализирует соотношение частотных гармоник, а другой представляет собой метод опорных векторов для задачи классификации. Данные методы используются для реализации двух систем автоматической транскрипции музыки, процесса, в котором соответственно извлекаются параметры, указывающие на высоту тона и время начала звучания каждой ноты. Эффективность предложенных методов и формируемых ими систем оценена через вычисление показателей точности, отзыва и F-меры. Было выявлено, что для реальных музыкальных отрывков предложенные системы автоматической транскрипции музыкальных фрагментов работают лучше, чем ряд рассмотренных существующих. Также система, основанная на методе опорных векторов для определения высоты тона, имеет больший потенциал для последующих оптимизаций и достижения ещё большей эффективности в будущих работах.

This article describes proposed methods in the field of pitch estimation in polyphonic melodies and note onset detection in musical fragments. When implementing the methods, a special frequency-dependent time-frequency analysis tool called RTFI was used. RTFI can easily provide time-frequency analysis with different time-frequency resolutions, for example, with a resolution similar to the frequency analyzer of the human ear, as well as with a resolution of uniform and constant Q-factor. As part of the onset detection problem, two methods are proposed that work with the signal energy and its frequency. For estimating pitch in polyphony, two methods were also proposed, one of which analyzes the ratio of frequency harmonics, and the other one is a support vector method for solving a classification problem. These methods are used to implement two automatic transcription systems, where automatic transcription is a process in which parameters indicating the pitch and the onset time of each note are extracted respectively. The effectiveness of the proposed methods and the systems formed on their basis is evaluated by calculating the accuracy, recall and F-measure values. It is shown that for real musical fragments, the proposed systems of automatic transcription of musical fragments work better than a number of the existing ones considered. In addition, the system based on the support-vector method for determining pitch has great potential for further optimization and achieving even greater efficiency in future work.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous

Access count: 6 
Last 30 days: 0

Detailed usage statistics