Details
Title | Классификация городских звуков с помощью рекуррентных нейронных сетей: выпускная квалификационная работа бакалавра: 09.03.01 - Информатика и вычислительная техника ; 09.03.01_02 - Технологии разработки программного обеспечения |
---|---|
Creators | Леженин Юрий Игоревич |
Scientific adviser | Богач Наталья Владимировна |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий |
Imprint | Санкт-Петербург, 2019 |
Collection | Выпускные квалификационные работы; Общая коллекция |
Subjects | классификация звуков окружающей среды; нейронные сети с долгой краткосрочной памятью; сверточные нейронные сети; environmental sound classification; long short-term memory neural networks; convolutional neural networks |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 09.03.01 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
Links | Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований |
DOI | 10.18720/SPBPU/3/2019/vr/vr19-913 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Record key | ru\spstu\vkr\3381 |
Record create date | 10/15/2019 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Классификация звуков окружающей среды получила большое внимание в последние годы. Анализ звуков окружающей среды затруднен из-за их неструктурированной природы. Однако, наличие устойчивых частотно временных паттернов распределения энергии делает классификацию возможной. Поскольку нейронные сети архитектуры LSTM эффективны при обработке временных зависимостей, в данной работе описана и исследована модель на основе LSTM для классификации городских звуков. Модель обучена на амплитудных спектрограммах с нелинейным масштабом частоты в мелах, извлеченных из записей набора данных UrbanSound8K. Предложенная модель оценивается с использованием 5-кратной перекрестной проверки и сравнивается с базовой моделью на основе CNN. В данной работе показано, что модель на основе LSTM превосходит большинство существующих решений и является более точной и надежной, чем базовая модель на основе CNN.
Environmental sound classification has received more attention in recent years. Analysis of environmental sounds is difficult because of its unstructured nature. However, the presence of strong spectro-temporal patterns makes the classification possible. Since LSTM neural networks are efficient at learning temporal dependencies we propose and examine a LSTM model for urban sound classification. The model is trained on magnitude mel-spectrograms extracted from UrbanSound8K dataset audio. The proposed network is evaluated using 5-fold cross-validation and compared with the baseline CNN. It is shown that the LSTM model outperforms a set of existing solutions and is more accurate and confident than the baseline CNN.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 87
Last 30 days: 0