Детальная информация
| Название | Применение нейросетевого фильтра для повышения эффективности идентификации человека по голосу: выпускная квалификационная работа магистра: направление 11.04.01 «Радиотехника» ; образовательная программа 11.04.01_03 «Прикладная радиофизика» |
|---|---|
| Авторы | Чистяков Максим Евгеньевич |
| Научный руководитель | Павлов Виталий Александрович |
| Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт электроники и телекоммуникаций |
| Выходные сведения | Санкт-Петербург, 2025 |
| Коллекция | Выпускные квалификационные работы ; Общая коллекция |
| Тематика | нейросетевой фильтр ; идентификация человека по голосу ; шумоподавление ; спектрограммы ; u-net ; visual transformer ; visual mamba ; глубокое обучение ; акустические помехи ; vggish ; отношение сигнал/шум ; x-векторы ; мчкк ; обработка речи ; биометрия ; neural network filter ; human voice identification ; noise reduction ; spectrograms ; deep learning ; acoustic interference ; signal-to-noise ratio ; x-vectors ; mfcc ; speech processing ; biometrics |
| Тип документа | Выпускная квалификационная работа магистра |
| Язык | Русский |
| Уровень высшего образования | Магистратура |
| Код специальности ФГОС | 11.04.01 |
| Группа специальностей ФГОС | 110000 - Электроника, радиотехника и системы связи |
| DOI | 10.18720/SPBPU/3/2025/vr/vr26-280 |
| Права доступа | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
| Дополнительно | Новинка |
| Ключ записи | ru\spstu\vkr\39714 |
| Дата создания записи | 17.02.2026 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
| Группа | Анонимные пользователи |
|---|---|
| Сеть | Интернет |
Цель работы: Повышение эффективности алгоритмов идентификации человека по голосу за счет применения нейросетевых фильтров. Задачи: 1. Обзор существующих методов идентификации человека по голосу. 2. Обзор существующих методов фильтрации голоса. 3. Разработка набора данных для тестирования нейросетевого фильтра. 4. Разработка метода фильтрации голоса. 5. Тестирование разработанного метода. Работа проведена на базе Высшей школы прикладной физики и космических технологий Института электроники и телекоммуникаций Санкт-Петербургского политехнического университета Петра Великого. В ходе исследования были проведены расчёты, анализ и экспериментальное тестирование разработанных нейросетевых фильтров. Использовались методы обработки спектрограмм с помощью кратковременного преобразования Фурье (STFT), а также подходы глубокого обучения с архитектурами U-Net, Visual Transformer (ViT) и Visual Mamba (ViM). В результате было получено значительное повышение эффективности идентификации человека по голосу в зашумленных условиях. Продемонстрировано, что нейросетевые фильтры значительно превосходят традиционные методы. Показано, что Visual Transformer обеспечивает наивысшую точность, тогда как Visual Mamba предлагает оптимальный компромисс между точностью и вычислительными затратами. Полученные результаты могут быть использованы для улучшения существующих и создания новых, более устойчивых систем голосовой аутентификации и биометрии.
The aim of the work: To improve the efficiency of human voice identification algorithms through the application of neural network filters. Objectives: 1. Review existing methods for human voice identification. 2. Review existing methods for voice filtration. 3. Develop a dataset for testing the neural network filter. 4. Develop a voice filtration method. 5. Test the developed method. The work was conducted at the Higher School of Applied Physics and Space Technologies, Institute of Electronics and Telecommunications, Peter the Great St. Petersburg Polytechnic University. During the research, calculations, analysis, and experimental testing of the developed neural network filters were performed. Methods for processing spectrograms using Short-Time Fourier Transform (STFT) were employed, along with deep learning approaches incorporating U-Net, Visual Transformer (ViT), and Visual Mamba (ViM) architectures. As a result, a significant improvement in the efficiency of human voice identification in noisy conditions was achieved. It was demonstrated that neural network filters significantly outperform traditional methods. The Visual Transformer was shown to provide the highest accuracy, while Visual Mamba offered an optimal compromise between accuracy and computational costs. The obtained results can be used to enhance existing and create new, more robust systems for voice authentication and biometrics.
| Место доступа | Группа пользователей | Действие |
|---|---|---|
| Локальная сеть ИБК СПбПУ | Все |
|
| Интернет | Авторизованные пользователи СПбПУ |
|
| Интернет | Анонимные пользователи |
|
Количество обращений: 0
За последние 30 дней: 0