Применение нейросетевого фильтра для повышения эффективности идентификации человека по голосу: выпускная квалификационная работа магистра: направление 11.04.01 «Радиотехника» ; образовательная программа 11.04.01_03 «Прикладная радиофизика»

Чистяков, Максим Евгеньевич

Details

Title	Применение нейросетевого фильтра для повышения эффективности идентификации человека по голосу: выпускная квалификационная работа магистра: направление 11.04.01 «Радиотехника» ; образовательная программа 11.04.01_03 «Прикладная радиофизика»
Creators	Чистяков Максим Евгеньевич
Scientific adviser	Павлов Виталий Александрович
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт электроники и телекоммуникаций
Imprint	Санкт-Петербург, 2025
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	нейросетевой фильтр ; идентификация человека по голосу ; шумоподавление ; спектрограммы ; u-net ; visual transformer ; visual mamba ; глубокое обучение ; акустические помехи ; vggish ; отношение сигнал/шум ; x-векторы ; мчкк ; обработка речи ; биометрия ; neural network filter ; human voice identification ; noise reduction ; spectrograms ; deep learning ; acoustic interference ; signal-to-noise ratio ; x-vectors ; mfcc ; speech processing ; biometrics
Document type	Master graduation qualification work
Language	Russian
Level of education	Master
Speciality code (FGOS)	11.04.01
Speciality group (FGOS)	110000 - Электроника, радиотехника и системы связи
DOI	10.18720/SPBPU/3/2025/vr/vr26-280
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	ru\spstu\vkr\39714
Record create date	2/17/2026

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Цель работы: Повышение эффективности алгоритмов идентификации человека по голосу за счет применения нейросетевых фильтров. Задачи: 1. Обзор существующих методов идентификации человека по голосу. 2. Обзор существующих методов фильтрации голоса. 3. Разработка набора данных для тестирования нейросетевого фильтра. 4. Разработка метода фильтрации голоса. 5. Тестирование разработанного метода. Работа проведена на базе Высшей школы прикладной физики и космических технологий Института электроники и телекоммуникаций Санкт-Петербургского политехнического университета Петра Великого. В ходе исследования были проведены расчёты, анализ и экспериментальное тестирование разработанных нейросетевых фильтров. Использовались методы обработки спектрограмм с помощью кратковременного преобразования Фурье (STFT), а также подходы глубокого обучения с архитектурами U-Net, Visual Transformer (ViT) и Visual Mamba (ViM). В результате было получено значительное повышение эффективности идентификации человека по голосу в зашумленных условиях. Продемонстрировано, что нейросетевые фильтры значительно превосходят традиционные методы. Показано, что Visual Transformer обеспечивает наивысшую точность, тогда как Visual Mamba предлагает оптимальный компромисс между точностью и вычислительными затратами. Полученные результаты могут быть использованы для улучшения существующих и создания новых, более устойчивых систем голосовой аутентификации и биометрии.

The aim of the work: To improve the efficiency of human voice identification algorithms through the application of neural network filters. Objectives: 1. Review existing methods for human voice identification. 2. Review existing methods for voice filtration. 3. Develop a dataset for testing the neural network filter. 4. Develop a voice filtration method. 5. Test the developed method. The work was conducted at the Higher School of Applied Physics and Space Technologies, Institute of Electronics and Telecommunications, Peter the Great St. Petersburg Polytechnic University. During the research, calculations, analysis, and experimental testing of the developed neural network filters were performed. Methods for processing spectrograms using Short-Time Fourier Transform (STFT) were employed, along with deep learning approaches incorporating U-Net, Visual Transformer (ViT), and Visual Mamba (ViM) architectures. As a result, a significant improvement in the efficiency of human voice identification in noisy conditions was achieved. It was demonstrated that neural network filters significantly outperform traditional methods. The Visual Transformer was shown to provide the highest accuracy, while Visual Mamba offered an optimal compromise between accuracy and computational costs. The obtained results can be used to enhance existing and create new, more robust systems for voice authentication and biometrics.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 0
Last 30 days: 0

Detailed usage statistics