Детальная информация

Название Разработка интеллектуальной системы автоматизированного формирования структурированных документов на основе аудиозаписей: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения» = Development of an intelligent system for automated generation of structured documents based on audio recordings
Авторы Алешковский Александр Анатольевич
Научный руководитель Никитин Кирилл Вячеславович
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения Санкт-Петербург, 2025
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика автоматическое распознавание речи ; большие языковые модели ; обработка естественного языка ; генерация текста ; визуально-измерительный контроль ; аудиосигнал ; речевая активность ; нейросеть ; automatic speech recognition ; large language models ; natural language processing ; text generation ; visual and measurement control ; audio signal ; speech activity ; neural network
Тип документа Выпускная квалификационная работа магистра
Язык Русский
Уровень высшего образования Магистратура
Код специальности ФГОС 09.04.01
Группа специальностей ФГОС 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-3808
Права доступа Доступ по паролю из сети Интернет (чтение)
Ключ записи ru\spstu\vkr\37462
Дата создания записи 19.09.2025

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

В данной работе изложена сущность подхода к решению ряда прикладных задач упрощения документооборота с помощью применения больших языковых моделей для распознавания естественной речи и формирования необходимой отчетности на основе расшифрованного аудиопотока. Рассмотрено несколько нейросетевых моделей для распознавания речи, среди них: «Whisper», «Wav2Vec 2.0», «Google Speech-to-Text», «Microsoft Azure STT», «CMU Sphinx». После детального анализа архитектур и принципа работы на основе ряда критериев выбрана наиболее подходящая модель. Для первично выбранной модели для распознавания речи был выбран оптимальный алгоритм шумоподавления. Для полученной цепочки обработки подобраны алгоритмы нормализации и извлечения сущностей из текста. После получения связного текста были выбраны алгоритмы для структуризации и валидации текста. В конечном итоге получен программный комплекс, преобразующий аудиопоток с высокой точностью в файл отчета согласно требуемой структуре.

This paper presents the essence of an approach to addressing a number of practical challenges in document management by using large language models for natural speech recognition and the generation of necessary reports based on an audio stream that has been transcribed. Several neural network models for speech recognition have been considered, including "Whisper", "Wav2Vec 2.0", "Google Speech-to-Text", "Microsoft Azure STT", "CMU Sphinx". After a detailed analysis of the architectures and operation principles, the most appropriate model was selected based on several criteria. The optimal noise reduction algorithm has been selected for the initial speech recognition model. The algorithms for text normalization and entity extraction have also been selected for use in the processing chain. Following the creation of a coherent text, the algorithms for text structuring and validation have been implemented. Eventually, a software package has been developed that converts an audio stream into a report file according to the required structure.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать
Интернет Авторизованные пользователи СПбПУ
Прочитать
Интернет Анонимные пользователи

Количество обращений: 2 
За последние 30 дней: 0

Подробная статистика