Таблица | Карточка | RUSMARC | |
Разрешенные действия: –
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа: Анонимные пользователи Сеть: Интернет |
Аннотация
В данной работе рассматривается задача диаризации дикторов, методики оценки качества систем, решающих эту задачу, а также приведен обзор существующих систем с открытым исходным кодом. Целью работы является разработка REST API сервиса диаризации, ориентированного на работу с записями собраний. В качестве тестовых данных использовались аудиозаписи и эталонная разметка ICSI Meeting Corpus. Было проведено общее сравнение существующих инструментов, более глубокий сравнительный анализ с вычислением оценок качества подходящих систем (pyAudioAnalysis и SphereDiar). Разработана архитектура всего сервиса, спроектированы и реализованы API и модуль для работы с системой диаризации на языке программирования Python. Разработанная система была протестирована на выполнение заданных требований, вычислены оценки ее качества и составлен отчет полученных результатов. Результат данной работы представляет собой решение, которое можно использовать в качестве внешней системы диаризации относительно основного проекта. Например, системы распознавания речи при протоколировании собраний. Итоговый продукт находится в общем доступе и развернуть данное решение можно на собственных ресурсах.
In this paper, we consider the task of speaker diarization, methods for assessing the quality of systems that solve this problem, and also provide an overview of existing open source systems. The objective of the work is to develop a diarization service with REST API, oriented to work with meeting records. As test data, audio recordings and reference transcriptions of ICSI Meeting Corpus were used. A general comparison of existing tools was carried out, a deeper comparative analysis with the calculation of the quality ratings of suitable systems (pyAudioAnalysis and SphereDiar). The architecture of the entire service is developed, the API and the module for working with the diarization system in the Python programming language are designed and implemented. The developed system was tested to meet the specified requirements, estimates of its quality were calculated and a report of the results was compiled. The result of this work is a solution that can be used as an external diarization system relative to the main project. For example, speech recognition systems for the meeting logging. The final product is in the public domain and you can deploy this solution on your own resources.
Права на использование объекта хранения
Место доступа | Группа пользователей | Действие | ||||
---|---|---|---|---|---|---|
Локальная сеть ИБК СПбПУ | Все | |||||
Интернет | Авторизованные пользователи СПбПУ | |||||
Интернет | Анонимные пользователи |
Статистика использования
Количество обращений: 3
За последние 30 дней: 0 Подробная статистика |