Details
Title | Разработка системы автоматической транскрипции музыкальных фрагментов: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_01 «Технология разработки и сопровождения качественного программного продукта» |
---|---|
Creators | Иванов Дмитрий Александрович |
Scientific adviser | Молодяков Сергей Александрович |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий |
Imprint | Санкт-Петербург, 2022 |
Collection | Выпускные квалификационные работы; Общая коллекция |
Subjects | Машинное обучение; Электрические сигналы — Обработка цифровая; распознавание частоты звука; распознавание начала звучания; оценка качества; сравнительный анализ; классификация; pitch estimation; onset detection; quality evaluation; comparative analysis; classification |
UDC | 004.85; 621.391.037.37 |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 09.04.04 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2023/vr/vr23-399 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Record key | ru\spstu\vkr\20672 |
Record create date | 4/3/2023 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
В данной работе приводится описание предлагаемых методов в области оценки высоты тона в многоголосных мелодиях и отслеживания начала звучания нот в музыкальных фрагментах. В реализации методов использован специальный частотно-зависимый инструмент частотно-временного анализа, называемый RTFI. RTFI может легко и гибко осуществлять частотно-временной анализ с различными частотно-временными разрешениями, например, с разрешением, аналогичным анализатору частоты человеческого уха, а также с равномерным и Constant-Q разрешением. В рамках задачи отслеживания начала звучания нот предлагается два метода, работающих со спектральной плотностью мощности и частотой сигнала. В рамках задачи оценки высоты тона в многоголосии (полифонии) было также предложено два метода, один из которых анализирует соотношение частотных гармоник, а другой представляет собой метод опорных векторов для задачи классификации. Данные методы используются для реализации двух систем автоматической транскрипции музыки, процесса, в котором соответственно извлекаются параметры, указывающие на высоту тона и время начала звучания каждой ноты. Эффективность предложенных методов и формируемых ими систем оценена через вычисление показателей точности, отзыва и F-меры. Было выявлено, что для реальных музыкальных отрывков предложенные системы автоматической транскрипции музыкальных фрагментов работают лучше, чем ряд рассмотренных существующих. Также система, основанная на методе опорных векторов для определения высоты тона, имеет больший потенциал для последующих оптимизаций и достижения ещё большей эффективности в будущих работах.
This article describes proposed methods in the field of pitch estimation in polyphonic melodies and note onset detection in musical fragments. When implementing the methods, a special frequency-dependent time-frequency analysis tool called RTFI was used. RTFI can easily provide time-frequency analysis with different time-frequency resolutions, for example, with a resolution similar to the frequency analyzer of the human ear, as well as with a resolution of uniform and constant Q-factor. As part of the onset detection problem, two methods are proposed that work with the signal energy and its frequency. For estimating pitch in polyphony, two methods were also proposed, one of which analyzes the ratio of frequency harmonics, and the other one is a support vector method for solving a classification problem. These methods are used to implement two automatic transcription systems, where automatic transcription is a process in which parameters indicating the pitch and the onset time of each note are extracted respectively. The effectiveness of the proposed methods and the systems formed on their basis is evaluated by calculating the accuracy, recall and F-measure values. It is shown that for real musical fragments, the proposed systems of automatic transcription of musical fragments work better than a number of the existing ones considered. In addition, the system based on the support-vector method for determining pitch has great potential for further optimization and achieving even greater efficiency in future work.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 6
Last 30 days: 0