Details

Title Применение нейросетевого фильтра для повышения эффективности идентификации человека по голосу: выпускная квалификационная работа магистра: направление 11.04.01 «Радиотехника» ; образовательная программа 11.04.01_03 «Прикладная радиофизика»
Creators Чистяков Максим Евгеньевич
Scientific adviser Павлов Виталий Александрович
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт электроники и телекоммуникаций
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects нейросетевой фильтр ; идентификация человека по голосу ; шумоподавление ; спектрограммы ; u-net ; visual transformer ; visual mamba ; глубокое обучение ; акустические помехи ; vggish ; отношение сигнал/шум ; x-векторы ; мчкк ; обработка речи ; биометрия ; neural network filter ; human voice identification ; noise reduction ; spectrograms ; deep learning ; acoustic interference ; signal-to-noise ratio ; x-vectors ; mfcc ; speech processing ; biometrics
Document type Master graduation qualification work
Language Russian
Level of education Master
Speciality code (FGOS) 11.04.01
Speciality group (FGOS) 110000 - Электроника, радиотехника и системы связи
DOI 10.18720/SPBPU/3/2025/vr/vr26-280
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key ru\spstu\vkr\39714
Record create date 2/17/2026

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

Цель работы: Повышение эффективности алгоритмов идентификации человека по голосу за счет применения нейросетевых фильтров. Задачи: 1. Обзор существующих методов идентификации человека по голосу. 2. Обзор существующих методов фильтрации голоса. 3. Разработка набора данных для тестирования нейросетевого фильтра. 4. Разработка метода фильтрации голоса. 5. Тестирование разработанного метода. Работа проведена на базе Высшей школы прикладной физики и космических технологий Института электроники и телекоммуникаций Санкт-Петербургского политехнического университета Петра Великого. В ходе исследования были проведены расчёты, анализ и экспериментальное тестирование разработанных нейросетевых фильтров. Использовались методы обработки спектрограмм с помощью кратковременного преобразования Фурье (STFT), а также подходы глубокого обучения с архитектурами U-Net, Visual Transformer (ViT) и Visual Mamba (ViM). В результате было получено значительное повышение эффективности идентификации человека по голосу в зашумленных условиях. Продемонстрировано, что нейросетевые фильтры значительно превосходят традиционные методы. Показано, что Visual Transformer обеспечивает наивысшую точность, тогда как Visual Mamba предлагает оптимальный компромисс между точностью и вычислительными затратами. Полученные результаты могут быть использованы для улучшения существующих и создания новых, более устойчивых систем голосовой аутентификации и биометрии.

The aim of the work: To improve the efficiency of human voice identification algorithms through the application of neural network filters. Objectives: 1. Review existing methods for human voice identification. 2. Review existing methods for voice filtration. 3. Develop a dataset for testing the neural network filter. 4. Develop a voice filtration method. 5. Test the developed method. The work was conducted at the Higher School of Applied Physics and Space Technologies, Institute of Electronics and Telecommunications, Peter the Great St. Petersburg Polytechnic University. During the research, calculations, analysis, and experimental testing of the developed neural network filters were performed. Methods for processing spectrograms using Short-Time Fourier Transform (STFT) were employed, along with deep learning approaches incorporating U-Net, Visual Transformer (ViT), and Visual Mamba (ViM) architectures. As a result, a significant improvement in the efficiency of human voice identification in noisy conditions was achieved. It was demonstrated that neural network filters significantly outperform traditional methods. The Visual Transformer was shown to provide the highest accuracy, while Visual Mamba offered an optimal compromise between accuracy and computational costs. The obtained results can be used to enhance existing and create new, more robust systems for voice authentication and biometrics.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 0 
Last 30 days: 0

Detailed usage statistics