Детальная информация

Название Разработка метода обнаружения нештатных ситуаций в видеопотоке с использованием визуально-языковой нейронной сети: выпускная квалификационная работа бакалавра: направление 15.03.06 «Мехатроника и робототехника» ; образовательная программа 15.03.06_04 «Автономные роботы»
Авторы Чанчиков Дмитрий Владимирович
Научный руководитель Бахшиев Александр Валерьевич
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт машиностроения, материалов и транспорта
Выходные сведения Санкт-Петербург, 2024
Коллекция Выпускные квалификационные работы; Общая коллекция
Тематика видеоаналитика; обнаружение нештатных ситуаций; нейронные сети; глубокое обучение; визуально-языковые модели; описание изображений на естественном языке; video analytics; emergency situation detection; neural networks; deep learning; visual-language models; description of images in natural language
Тип документа Выпускная квалификационная работа бакалавра
Тип файла PDF
Язык Русский
Уровень высшего образования Бакалавриат
Код специальности ФГОС 15.03.06
Группа специальностей ФГОС 150000 - Машиностроение
DOI 10.18720/SPBPU/3/2024/vr/vr24-6096
Права доступа Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\32903
Дата создания записи 28.08.2024

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Объектом исследования являются визуально-языковые глубокие нейрон-ные сети, формирующие описания изображений на «естественном» языке. Цель данной работы заключается в разработке метода обнаружения нештатных ситуаций в видеопотоке с использованием визуально-языковой нейронной сети. В работе проведен анализ существующих методов, показавший, что визу-ально-языковые нейросетевые модели обладают значительными преимущества-ми благодаря способности сопоставлять изображения и текст без дополнительного обучения. Среди них для дальнейшего использования выбрана модель CLIP, на основе которой разработано три вариации алгоритма обнаружения не-штатных ситуаций в видеопотоке. Они реализованы в виде программы на языке программирования Python. Кроме того, собран и аннотирован набор визуальных примеров, и сформирован набор текстовых описаний нештатных ситуаций. По результатам экспериментов вариант алгоритма с обучаемым линейным классификатором, использующим текстовые описания и визуальные примеры, продемонстрировал наилучшие результаты по метрике F-score (64%), а также малое время реакции (0,66 с) и высокую долю обнаруженных интервалов (96%). В дополнение к этому, установлено, что для обнаружения некоторых классов нештатных ситуаций в дальнейшем необходимо учитывать временную последовательность кадров видеопотока.

The object of this research is visual-language deep neural networks that generate descriptions of images in natural language. The aim of this work is to develop a method for detecting anomalous situations in video streams using a visual-language neural network. The study includes an analysis of existing methods, revealing that visual-language neural network models have significant advantages due to their ability to associate images with text without additional training. Among these models, CLIP was selected for further use, and three variations of the algorithm for detecting anomalous situations in video streams were developed based on it. These algorithms were implemented in a Python program. Additionally, a dataset of visual examples was collected and annotated, and a set of textual descriptions of anomalous situations was compiled. Experimental results showed that the variant of the algorithm with a trainable linear classifier using textual descriptions and visual examples demonstrated the best performance in terms of the F-score metric (64%), as well as a short response time (0.66 s) and a high detection rate of intervals (96%). Furthermore, it was established that for detecting certain classes of anomalous situations, it is necessary to consider the temporal sequence of video frames in future work.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ
Прочитать Печать Загрузить
Интернет Анонимные пользователи

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика