Разработка метода обнаружения  нештатных ситуаций в  видеопотоке с использованием  визуально-языковой нейронной сети: выпускная квалификационная работа бакалавра: направление 15.03.06 «Мехатроника и робототехника» ; образовательная программа 15.03.06_04 «Автономные роботы»

Чанчиков, Дмитрий Владимирович

Details

Title	Разработка метода обнаружения нештатных ситуаций в видеопотоке с использованием визуально-языковой нейронной сети: выпускная квалификационная работа бакалавра: направление 15.03.06 «Мехатроника и робототехника» ; образовательная программа 15.03.06_04 «Автономные роботы»
Creators	Чанчиков Дмитрий Владимирович
Scientific adviser	Бахшиев Александр Валерьевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт машиностроения, материалов и транспорта
Imprint	Санкт-Петербург, 2024
Collection	Выпускные квалификационные работы; Общая коллекция
Subjects	видеоаналитика; обнаружение нештатных ситуаций; нейронные сети; глубокое обучение; визуально-языковые модели; описание изображений на естественном языке; video analytics; emergency situation detection; neural networks; deep learning; visual-language models; description of images in natural language
Document type	Bachelor graduation qualification work
File type	PDF
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	15.03.06
Speciality group (FGOS)	150000 - Машиностроение
DOI	10.18720/SPBPU/3/2024/vr/vr24-6096
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	ru\spstu\vkr\32903
Record create date	8/28/2024

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Объектом исследования являются визуально-языковые глубокие нейрон-ные сети, формирующие описания изображений на «естественном» языке. Цель данной работы заключается в разработке метода обнаружения нештатных ситуаций в видеопотоке с использованием визуально-языковой нейронной сети. В работе проведен анализ существующих методов, показавший, что визу-ально-языковые нейросетевые модели обладают значительными преимущества-ми благодаря способности сопоставлять изображения и текст без дополнительного обучения. Среди них для дальнейшего использования выбрана модель CLIP, на основе которой разработано три вариации алгоритма обнаружения не-штатных ситуаций в видеопотоке. Они реализованы в виде программы на языке программирования Python. Кроме того, собран и аннотирован набор визуальных примеров, и сформирован набор текстовых описаний нештатных ситуаций. По результатам экспериментов вариант алгоритма с обучаемым линейным классификатором, использующим текстовые описания и визуальные примеры, продемонстрировал наилучшие результаты по метрике F-score (64%), а также малое время реакции (0,66 с) и высокую долю обнаруженных интервалов (96%). В дополнение к этому, установлено, что для обнаружения некоторых классов нештатных ситуаций в дальнейшем необходимо учитывать временную последовательность кадров видеопотока.

The object of this research is visual-language deep neural networks that generate descriptions of images in natural language. The aim of this work is to develop a method for detecting anomalous situations in video streams using a visual-language neural network. The study includes an analysis of existing methods, revealing that visual-language neural network models have significant advantages due to their ability to associate images with text without additional training. Among these models, CLIP was selected for further use, and three variations of the algorithm for detecting anomalous situations in video streams were developed based on it. These algorithms were implemented in a Python program. Additionally, a dataset of visual examples was collected and annotated, and a set of textual descriptions of anomalous situations was compiled. Experimental results showed that the variant of the algorithm with a trainable linear classifier using textual descriptions and visual examples demonstrated the best performance in terms of the F-score metric (64%), as well as a short response time (0.66 s) and a high detection rate of intervals (96%). Furthermore, it was established that for detecting certain classes of anomalous situations, it is necessary to consider the temporal sequence of video frames in future work.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 0
Last 30 days: 0

Detailed usage statistics