Details

Title Разработка метода обнаружения нештатных ситуаций в видеопотоке с использованием визуально-языковой нейронной сети: выпускная квалификационная работа бакалавра: направление 15.03.06 «Мехатроника и робототехника» ; образовательная программа 15.03.06_04 «Автономные роботы»
Creators Чанчиков Дмитрий Владимирович
Scientific adviser Бахшиев Александр Валерьевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт машиностроения, материалов и транспорта
Imprint Санкт-Петербург, 2024
Collection Выпускные квалификационные работы; Общая коллекция
Subjects видеоаналитика; обнаружение нештатных ситуаций; нейронные сети; глубокое обучение; визуально-языковые модели; описание изображений на естественном языке; video analytics; emergency situation detection; neural networks; deep learning; visual-language models; description of images in natural language
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 15.03.06
Speciality group (FGOS) 150000 - Машиностроение
DOI 10.18720/SPBPU/3/2024/vr/vr24-6096
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key ru\spstu\vkr\32903
Record create date 8/28/2024

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

Объектом исследования являются визуально-языковые глубокие нейрон-ные сети, формирующие описания изображений на «естественном» языке. Цель данной работы заключается в разработке метода обнаружения нештатных ситуаций в видеопотоке с использованием визуально-языковой нейронной сети. В работе проведен анализ существующих методов, показавший, что визу-ально-языковые нейросетевые модели обладают значительными преимущества-ми благодаря способности сопоставлять изображения и текст без дополнительного обучения. Среди них для дальнейшего использования выбрана модель CLIP, на основе которой разработано три вариации алгоритма обнаружения не-штатных ситуаций в видеопотоке. Они реализованы в виде программы на языке программирования Python. Кроме того, собран и аннотирован набор визуальных примеров, и сформирован набор текстовых описаний нештатных ситуаций. По результатам экспериментов вариант алгоритма с обучаемым линейным классификатором, использующим текстовые описания и визуальные примеры, продемонстрировал наилучшие результаты по метрике F-score (64%), а также малое время реакции (0,66 с) и высокую долю обнаруженных интервалов (96%). В дополнение к этому, установлено, что для обнаружения некоторых классов нештатных ситуаций в дальнейшем необходимо учитывать временную последовательность кадров видеопотока.

The object of this research is visual-language deep neural networks that generate descriptions of images in natural language. The aim of this work is to develop a method for detecting anomalous situations in video streams using a visual-language neural network. The study includes an analysis of existing methods, revealing that visual-language neural network models have significant advantages due to their ability to associate images with text without additional training. Among these models, CLIP was selected for further use, and three variations of the algorithm for detecting anomalous situations in video streams were developed based on it. These algorithms were implemented in a Python program. Additionally, a dataset of visual examples was collected and annotated, and a set of textual descriptions of anomalous situations was compiled. Experimental results showed that the variant of the algorithm with a trainable linear classifier using textual descriptions and visual examples demonstrated the best performance in terms of the F-score metric (64%), as well as a short response time (0.66 s) and a high detection rate of intervals (96%). Furthermore, it was established that for detecting certain classes of anomalous situations, it is necessary to consider the temporal sequence of video frames in future work.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 0 
Last 30 days: 0

Detailed usage statistics