Details

Title: Разработка средств диаризации речи дикторов для корпоративного диалогового ассистента: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки»
Creators: Борисова Полина Владимировна
Scientific adviser: Тимофеев Дмитрий Андреевич
Other creators: Трифонов Петр Владимирович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: диаризация; диаризация дикторов; REST API; Python; diarization; speaker diarization
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Speciality code (FGOS): 02.03.02
Speciality group (FGOS): 020000 - Компьютерные и информационные науки
Links: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-2974
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В данной работе рассматривается задача диаризации дикторов, методики оценки качества систем, решающих эту задачу, а также приведен обзор существующих систем с открытым исходным кодом. Целью работы является разработка REST API сервиса диаризации, ориентированного на работу с записями собраний. В качестве тестовых данных использовались аудиозаписи и эталонная разметка ICSI Meeting Corpus. Было проведено общее сравнение существующих инструментов, более глубокий сравнительный анализ с вычислением оценок качества подходящих систем (pyAudioAnalysis и SphereDiar). Разработана архитектура всего сервиса, спроектированы и реализованы API и модуль для работы с системой диаризации на языке программирования Python. Разработанная система была протестирована на выполнение заданных требований, вычислены оценки ее качества и составлен отчет полученных результатов. Результат данной работы представляет собой решение, которое можно использовать в качестве внешней системы диаризации относительно основного проекта. Например, системы распознавания речи при протоколировании собраний. Итоговый продукт находится в общем доступе и развернуть данное решение можно на собственных ресурсах.

In this paper, we consider the task of speaker diarization, methods for assessing the quality of systems that solve this problem, and also provide an overview of existing open source systems. The objective of the work is to develop a diarization service with REST API, oriented to work with meeting records. As test data, audio recordings and reference transcriptions of ICSI Meeting Corpus were used. A general comparison of existing tools was carried out, a deeper comparative analysis with the calculation of the quality ratings of suitable systems (pyAudioAnalysis and SphereDiar). The architecture of the entire service is developed, the API and the module for working with the diarization system in the Python programming language are designed and implemented. The developed system was tested to meet the specified requirements, estimates of its quality were calculated and a report of the results was compiled. The result of this work is a solution that can be used as an external diarization system relative to the main project. For example, speech recognition systems for the meeting logging. The final product is in the public domain and you can deploy this solution on your own resources.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 0
Last 30 days: 0
Detailed usage statistics