Details
| Title | Применение нейросетевого фильтра для повышения эффективности идентификации человека по голосу: выпускная квалификационная работа магистра: направление 11.04.01 «Радиотехника» ; образовательная программа 11.04.01_03 «Прикладная радиофизика» |
|---|---|
| Creators | Чистяков Максим Евгеньевич |
| Scientific adviser | Павлов Виталий Александрович |
| Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт электроники и телекоммуникаций |
| Imprint | Санкт-Петербург, 2025 |
| Collection | Выпускные квалификационные работы ; Общая коллекция |
| Subjects | нейросетевой фильтр ; идентификация человека по голосу ; шумоподавление ; спектрограммы ; u-net ; visual transformer ; visual mamba ; глубокое обучение ; акустические помехи ; vggish ; отношение сигнал/шум ; x-векторы ; мчкк ; обработка речи ; биометрия ; neural network filter ; human voice identification ; noise reduction ; spectrograms ; deep learning ; acoustic interference ; signal-to-noise ratio ; x-vectors ; mfcc ; speech processing ; biometrics |
| Document type | Master graduation qualification work |
| Language | Russian |
| Level of education | Master |
| Speciality code (FGOS) | 11.04.01 |
| Speciality group (FGOS) | 110000 - Электроника, радиотехника и системы связи |
| DOI | 10.18720/SPBPU/3/2025/vr/vr26-280 |
| Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
| Additionally | New arrival |
| Record key | ru\spstu\vkr\39714 |
| Record create date | 2/17/2026 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
| Group | Anonymous |
|---|---|
| Network | Internet |
Цель работы: Повышение эффективности алгоритмов идентификации человека по голосу за счет применения нейросетевых фильтров. Задачи: 1. Обзор существующих методов идентификации человека по голосу. 2. Обзор существующих методов фильтрации голоса. 3. Разработка набора данных для тестирования нейросетевого фильтра. 4. Разработка метода фильтрации голоса. 5. Тестирование разработанного метода. Работа проведена на базе Высшей школы прикладной физики и космических технологий Института электроники и телекоммуникаций Санкт-Петербургского политехнического университета Петра Великого. В ходе исследования были проведены расчёты, анализ и экспериментальное тестирование разработанных нейросетевых фильтров. Использовались методы обработки спектрограмм с помощью кратковременного преобразования Фурье (STFT), а также подходы глубокого обучения с архитектурами U-Net, Visual Transformer (ViT) и Visual Mamba (ViM). В результате было получено значительное повышение эффективности идентификации человека по голосу в зашумленных условиях. Продемонстрировано, что нейросетевые фильтры значительно превосходят традиционные методы. Показано, что Visual Transformer обеспечивает наивысшую точность, тогда как Visual Mamba предлагает оптимальный компромисс между точностью и вычислительными затратами. Полученные результаты могут быть использованы для улучшения существующих и создания новых, более устойчивых систем голосовой аутентификации и биометрии.
The aim of the work: To improve the efficiency of human voice identification algorithms through the application of neural network filters. Objectives: 1. Review existing methods for human voice identification. 2. Review existing methods for voice filtration. 3. Develop a dataset for testing the neural network filter. 4. Develop a voice filtration method. 5. Test the developed method. The work was conducted at the Higher School of Applied Physics and Space Technologies, Institute of Electronics and Telecommunications, Peter the Great St. Petersburg Polytechnic University. During the research, calculations, analysis, and experimental testing of the developed neural network filters were performed. Methods for processing spectrograms using Short-Time Fourier Transform (STFT) were employed, along with deep learning approaches incorporating U-Net, Visual Transformer (ViT), and Visual Mamba (ViM) architectures. As a result, a significant improvement in the efficiency of human voice identification in noisy conditions was achieved. It was demonstrated that neural network filters significantly outperform traditional methods. The Visual Transformer was shown to provide the highest accuracy, while Visual Mamba offered an optimal compromise between accuracy and computational costs. The obtained results can be used to enhance existing and create new, more robust systems for voice authentication and biometrics.
| Network | User group | Action |
|---|---|---|
| ILC SPbPU Local Network | All |
|
| Internet | Authorized users SPbPU |
|
| Internet | Anonymous |
|
Access count: 0
Last 30 days: 0