Детальная информация
| Название | Методы повышения быстродействия и точности распознавания ключевых слов для сквозных систем автоматического распознавания речи: специальность 2.3.5. Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей: автореферат диссертации на соискание ученой степени кандидата технических наук |
|---|---|
| Авторы | Андрусенко Андрей Юрьевич |
| Научный руководитель | Дробинцев Павел Дмитриевич |
| Организация | Санкт-Петербургский политехнический университет Петра Великого |
| Выходные сведения | Санкт-Петербург, 2025 |
| Коллекция | Научные работы аспирантов/докторантов ; Общая коллекция |
| Тематика | Речь — Распознавание ; сквозное моделирование ; быстродействие ; распознавание ключевых слов ; смещение контекста |
| УДК | 004.934.1'1 |
| Тип документа | Автореферат |
| Язык | Русский |
| Код специальности ОКСВНК | 2.3.5. |
| Группа специальностей ОКСВНК | 2.0000 |
| DOI | 10.18720/SPBPU/2/r25-99 |
| Права доступа | Свободный доступ из сети Интернет (чтение) |
| Дополнительно | Новинка |
| Ключ записи | RU\SPSTU\edoc\77596 |
| Дата создания записи | 02.12.2025 |
| Группа | Анонимные пользователи |
|---|---|
| Сеть | Интернет |
Данная диссертационная работа посвящена разработке методов повышения быстродействия и точности распознавания ключевых слов для сквозных систем автоматического распознавания речи. Научная новизна работы состоит в разработке новой архитектуры глубокой нейронной сети с прогрессивным сжатием и последующим восстановлением временной последовательности, что снижает вычислительные затраты энкодера при сохранении точности. Также в работе были разработаны методы смещения контекста для заранее известных ключевых слов с использованием акустического детектора слов на основе графа контекста с альтернативными транскрипциями; и для внесловарных слов с использованием модифицированного графа декодирования и дообучением энкодера по критерию максимальной взаимной информации. Экспериментальные исследования показали ускорение работы модели более чем в 1,8 раза, снижение пословной ошибки распознавания на 0,6–1,8%, рост F-меры для ключевых слов до 0,88 и уменьшение ошибки распознавания внесловарных слов на 39,6%. Полученные результаты подтверждают эффективность предложенных решений для их практического применения в системах на основе голосовых интерфейсов и речевой аналитики.
Количество обращений: 10
За последние 30 дней: 10