Details

Title: Разработка веб-приложения для распознавания песни по напеванию с использованием алгоритмов машинного обучения: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators: Плетнева Александра Дмитриевна
Scientific adviser: Малеев Олег Геннадьевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint: Санкт-Петербург, 2024
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: ResNet; распознавание по напеванию; триплетные потери; веб-приложение; humming recognition; triplet loss; web application
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 09.03.04
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2024/vr/vr24-2606
Rights: Доступ по паролю из сети Интернет (чтение)
Additionally: New arrival
Record key: ru\spstu\vkr\30290

Allowed Actions:

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Данная работа посвящена разработке архитектуры и обучению нейронной сети для распознавания песен по напеванию и созданию веб-приложения для удобного использования сети. В рамках работы была предложена и реализована архитектура приложения и разработан алгоритм распознавания песен по напеванию с использованием ResNet и сочетания триплетных и классификационных потерь. Веб-приложение предлагает возможность записать свой напев с микрофона, и с помощью нейросети выводит пользователю до 10 наиболее релевантных вариантов оригинала. В результате сеть, обученная на наборе напетых данных, дала MRR=0.63, а также ранг 81,3% данных оказался меньше 10, что довольно хорошо подходит для нашей реализации приложения.

This work is dedicated to the development of an architecture and training a neural network for song recognition by humming, as well as the creation of a web application for convenient use of the network. In this work, the architecture of the application was proposed and implemented, and an algorithm for song recognition by humming using ResNet and a combination of triplet and classification losses was developed. The web application allows users to record their humming via a microphone, and with the help of the neural network, it provides up to 10 most relevant original song matches. As a result, the network trained on a dataset of hummed melodies achieved an MRR of 0.63, and 81.3% of the data had a rank below 10, which is quite suitable for our application implementation.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read
Internet Authorized users SPbPU Read
-> Internet Anonymous

Table of Contents

  • РЕФЕРАТ
  • ABSTRACT
  • СПИСОК СОКРАЩЕНИЙ
  • ВВЕДЕНИЕ
  • ГЛАВА 1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ
  • 1.1. Обработка звука
    • 1.1.1. Предобработка аудиоданных
    • 1.1.2. Выделение вокала из аудиофрагмента
  • 1.2. Обзор существующих решений
    • 1.2.1. Shazam
    • 1.2.2. SoundHound
    • 1.2.3. Midomi
    • 1.2.4. Hum To Search on Google
    • 1.2.5. Сравнительный анализ приложений
  • 1.3. Выводы
  • ГЛАВА 2. РЕАЛИЗАЦИЯ ВЕБ-ПРИЛОЖЕНИЯ
  • 2.1. Функциональная спецификация веб-приложения
  • 2.2. Обоснование выбора технологий и средств разработки
  • 2.3. Архитектура проекта
  • 2.4. Проектирование базы данных
  • 2.5. Структура проекта
  • 2.6. Серверная часть приложения
  • 2.7. Клиентская часть приложения
  • 2.8. Авторизация в приложении
    • 2.8.1. JWT-токены
    • 2.8.2. Хранение токенов
  • 2.9. Выводы
  • ГЛАВА 3. РЕАЛИЗАЦИЯ РАСПОЗНАВАНИЯ ПЕСЕН ПО НАПЕВАНИЮ
  • 3.1. Сбор данных для обучения
  • 3.2. Архитектура нейросети
    • 3.2.1. Оценка качества модели
    • 3.2.2. Resnet
    • 3.2.3. Metric Learning
    • 3.2.4. Распознавание песен
  • 3.3. Выводы
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

Usage statistics

stat Access count: 0
Last 30 days: 0
Detailed usage statistics