Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
В данной работе рассматривается задача диаризации дикторов, методики оценки качества систем, решающих эту задачу, а также приведен обзор существующих систем с открытым исходным кодом. Целью работы является разработка REST API сервиса диаризации, ориентированного на работу с записями собраний. В качестве тестовых данных использовались аудиозаписи и эталонная разметка ICSI Meeting Corpus. Было проведено общее сравнение существующих инструментов, более глубокий сравнительный анализ с вычислением оценок качества подходящих систем (pyAudioAnalysis и SphereDiar). Разработана архитектура всего сервиса, спроектированы и реализованы API и модуль для работы с системой диаризации на языке программирования Python. Разработанная система была протестирована на выполнение заданных требований, вычислены оценки ее качества и составлен отчет полученных результатов. Результат данной работы представляет собой решение, которое можно использовать в качестве внешней системы диаризации относительно основного проекта. Например, системы распознавания речи при протоколировании собраний. Итоговый продукт находится в общем доступе и развернуть данное решение можно на собственных ресурсах.
In this paper, we consider the task of speaker diarization, methods for assessing the quality of systems that solve this problem, and also provide an overview of existing open source systems. The objective of the work is to develop a diarization service with REST API, oriented to work with meeting records. As test data, audio recordings and reference transcriptions of ICSI Meeting Corpus were used. A general comparison of existing tools was carried out, a deeper comparative analysis with the calculation of the quality ratings of suitable systems (pyAudioAnalysis and SphereDiar). The architecture of the entire service is developed, the API and the module for working with the diarization system in the Python programming language are designed and implemented. The developed system was tested to meet the specified requirements, estimates of its quality were calculated and a report of the results was compiled. The result of this work is a solution that can be used as an external diarization system relative to the main project. For example, speech recognition systems for the meeting logging. The final product is in the public domain and you can deploy this solution on your own resources.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Usage statistics
Access count: 3
Last 30 days: 0 Detailed usage statistics |