Детальная информация

Название: Разработка средств диаризации речи дикторов для корпоративного диалогового ассистента: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки»
Авторы: Борисова Полина Владимировна
Научный руководитель: Тимофеев Дмитрий Андреевич
Другие авторы: Трифонов Петр Владимирович
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: диаризация; диаризация дикторов; REST API; Python; diarization; speaker diarization
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Код специальности ФГОС: 02.03.02
Группа специальностей ФГОС: 020000 - Компьютерные и информационные науки
Ссылки: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-2974
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В данной работе рассматривается задача диаризации дикторов, методики оценки качества систем, решающих эту задачу, а также приведен обзор существующих систем с открытым исходным кодом. Целью работы является разработка REST API сервиса диаризации, ориентированного на работу с записями собраний. В качестве тестовых данных использовались аудиозаписи и эталонная разметка ICSI Meeting Corpus. Было проведено общее сравнение существующих инструментов, более глубокий сравнительный анализ с вычислением оценок качества подходящих систем (pyAudioAnalysis и SphereDiar). Разработана архитектура всего сервиса, спроектированы и реализованы API и модуль для работы с системой диаризации на языке программирования Python. Разработанная система была протестирована на выполнение заданных требований, вычислены оценки ее качества и составлен отчет полученных результатов. Результат данной работы представляет собой решение, которое можно использовать в качестве внешней системы диаризации относительно основного проекта. Например, системы распознавания речи при протоколировании собраний. Итоговый продукт находится в общем доступе и развернуть данное решение можно на собственных ресурсах.

In this paper, we consider the task of speaker diarization, methods for assessing the quality of systems that solve this problem, and also provide an overview of existing open source systems. The objective of the work is to develop a diarization service with REST API, oriented to work with meeting records. As test data, audio recordings and reference transcriptions of ICSI Meeting Corpus were used. A general comparison of existing tools was carried out, a deeper comparative analysis with the calculation of the quality ratings of suitable systems (pyAudioAnalysis and SphereDiar). The architecture of the entire service is developed, the API and the module for working with the diarization system in the Python programming language are designed and implemented. The developed system was tested to meet the specified requirements, estimates of its quality were calculated and a report of the results was compiled. The result of this work is a solution that can be used as an external diarization system relative to the main project. For example, speech recognition systems for the meeting logging. The final product is in the public domain and you can deploy this solution on your own resources.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
Интернет Авторизованные пользователи (не СПбПУ)
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 3
За последние 30 дней: 0
Подробная статистика