Детальная информация

Название Исследование и разработка комбинированной многорукавной свёрточной нейросетевой модели для решения задачи классификации мультимодального контента: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»
Авторы Торопов Алексей Геннадьевич
Научный руководитель Туральчук Константин Анатольевич
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения Санкт-Петербург, 2023
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика комбинированный классификатор ; специальные дескрипторы изображений ; визуальные и текстовые признаки ; combined classifier ; specialized image descriptors ; visual and textual features
Тип документа Выпускная квалификационная работа бакалавра
Тип файла PDF
Язык Русский
Уровень высшего образования Бакалавриат
Код специальности ФГОС 09.03.03
Группа специальностей ФГОС 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2023/vr/vr23-1725
Права доступа Доступ по паролю из сети Интернет (чтение)
Ключ записи ru\spstu\vkr\22902
Дата создания записи 21.07.2023

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

В данной работе рассматривается проблема классификации фотографий фасадов коммерческих зданий по типу предоставляемых услуг. Объектом исследования является комбинированная многорукавная нейросетевая архитектура со специальными дескрипторами областей изображения с текстом. Предметом исследования является применимость и эффективность данных моделей для решения задачи классификации фотографий фасадов коммерческих зданий по типу предоставляемых услуг. Целью исследования является разработка комбинированной многорукавной нейросетевой модели для решения задачи классификации фасадов коммерческих зданий по типу предоставляемых услуг, а также исследование её эффективности. Для достижения поставленной цели предлагается спроектировать и реализовать комбинированную многорукавную нейросетевую архитектуру, разработать специальные модули в составе архитектуры, позволяющие извлекать дескрипторы из участков изображения, а также исследовать эффективность применения полученных модулей в составе комбинированного многорукавного нейросетевого классификатора. В качестве решения предлагается архитектура комбинированного классификатора, а также различные типы дескрипторов: на основе свёрточных нейронных сетей и на основе обучаемых параметризованных стратегий движения агентов. Для сравнения разработанных подходов и проверки их эффективности используются два набора данных фотографий фасадов коммерческих зданий, сгруппированных по типу представленного бизнеса. В результате разработана комбинированная многорукавная свёрточная нейросетевая модель, которая продемонстрировала лучшее качество по метрике F1. Дальнейшие исследования могут быть направлены на изучение новых дескрипторов с целью дальнейшего улучшения достигнутых результатов.

This graduate qualification work deals with the problem of classifying images of commercial building facades according to the type of services provided. The object of the research is a combined multi-arm neural network architecture with special descriptors of image areas with text. The subject of the research is the applicability and effectiveness of these models for solving the problem of classifying photos of commercial building facades by type of services provided. The aim of the graduate qualification work is to develop a combined multi-arm neural network model to solve the problem of classifying the facades of commercial buildings by type of services, and research its effectiveness. To achieve this goal, it is proposed to design and implement a combined multi-arm neural network architecture, develop special modules in the architecture, allowing to extract descriptors from image sections, and to study the effectiveness of these modules in the combined multi-arm neural network classifier. As a solution, the architecture of combined classifier is proposed, as well as different types of descriptors: based on convolutional neural networks and on the basis of trainable parametrized strategies of movement of agents. To compare the developed approaches and test their effectiveness, two sets of commercial building images, grouped by the type of business represented, are used. As a result, a combined multi-arm convolutional neural network model is developed, which has demonstrated the best performance on the F1 metric. Further research can be aimed at exploring new descriptors to further improve the results achieved.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать
Интернет Авторизованные пользователи СПбПУ
Прочитать
Интернет Анонимные пользователи
  • Исследование и разработка комбинированной многорукавной свёрточной нейросетевой модели для решения задачи классификации мультимодального контента
    • Введение
    • 1. Обзор предметной области
    • 2. Проектирование комбинированного многорукавного нейросетевого классификатора
    • 3. Детали реализации
    • 4. Тестирование
    • Заключение
    • Список использованных источников
    • Приложение 1. Код реализации модели
    • Приложение 2. Код реализации дескрипторов

Количество обращений: 9 
За последние 30 дней: 0

Подробная статистика