Details

Title: Разработка нейронной сети для определения длинны разговора по видеозаписи: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators: Лячко Алексей Сергеевич
Scientific adviser: Малеев Олег Геннадьевич
Other creators: Локшина Екатерина Геннадиевна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2021
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: классификаторы; изображения; речь; сверточные сети; видеозаписи; classifiers; images; speech; convolutional network; videos
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 09.03.04
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-1113
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\12852

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В работе рассматриваются методы обработки видеозаписей, изображений и звука, исследуются способы выявления признаков, виды моделей. В результате была разработана модель, способная классифицировать по кадру из видео, происходит ли на нем разговор. Для демонстрации работы, на основе этой модели, была разработана программа для определения длинны разговора по видеозаписи.

The paper discusses methods of video, audio, imagery and data processing in general, machine learning models and neural network architecture. As a result of the research, the implementation of algorithm based on neural network and capable of detection speech moment by imagery from video only was created. As a prove of concept, program using that algorithm capable of calculating speech time in video was created.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
External organizations N2 All Read
External organizations N1 All
Internet Authorized users SPbPU Read Print Download
Internet Authorized users (not from SPbPU, N2) Read
Internet Authorized users (not from SPbPU, N1)
-> Internet Anonymous

Table of Contents

  • ВВЕДЕНИЕ
  • 1. ПОСТАНОВКА ЗАДАЧИ И ОПРЕДЕЛЕНИЕ ТРЕБОВАНИЙ
    • 1.1. Постановка задачи
    • 1.2. Определение требований к разрабатываемой программе
  • 2. Обработка видеозаписей
    • 2.1. Обзор решаемой задачи
  • 3. ОПРЕДЕЛЕНИЕ ВХОДНЫХ ДАННЫХ ДЛЯ МОДЕЛИ
    • 3.1. Общее представление
    • 3.2. Изображения
    • 3.3. Использование dlib
  • 4. ПОДГОТОВКА ДАННЫХ ДЛЯ ОБУЧЕНИЯ
    • 4.1. Разговор отсуствует
    • 4.2. Разговор присутствует
  • 5. ОБРАБОТКА АУДИО И ИЗОБРАЖЕНИЙ
    • 5.1. Аудио
    • 5.2. Изображения
  • 6. ОБЗОР МОДЕЛЕЙ
    • 6.1. Сверточные сети
    • 6.2. Скрытые слои
    • 6.3. Классификаторы
      • 6.3.1. Randomforest и бинарные классификаторы
  • 7. РЕАЛИЗАЦИЯ
    • 7.1. Язык и средства
    • 7.2. Архитектура программы
    • 7.3. Архитектура модели
  • 8. АНАЛИЗ РЕЗУЛЬТАТОВ
    • 8.1. Тренировка моделей
      • 8.1.1. Созданная модель
      • 8.1.2. Random Forest
    • 8.2. Запуск программы
      • 8.2.1. Созданная модель
      • 8.2.2. Random Forest
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Usage statistics

stat Access count: 13
Last 30 days: 0
Detailed usage statistics