Details

Title Исследование и разработка комбинированной многорукавной свёрточной нейросетевой модели для решения задачи классификации мультимодального контента: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»
Creators Торопов Алексей Геннадьевич
Scientific adviser Туральчук Константин Анатольевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint Санкт-Петербург, 2023
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects комбинированный классификатор ; специальные дескрипторы изображений ; визуальные и текстовые признаки ; combined classifier ; specialized image descriptors ; visual and textual features
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.03
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2023/vr/vr23-1725
Rights Доступ по паролю из сети Интернет (чтение)
Record key ru\spstu\vkr\22902
Record create date 7/21/2023

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

В данной работе рассматривается проблема классификации фотографий фасадов коммерческих зданий по типу предоставляемых услуг. Объектом исследования является комбинированная многорукавная нейросетевая архитектура со специальными дескрипторами областей изображения с текстом. Предметом исследования является применимость и эффективность данных моделей для решения задачи классификации фотографий фасадов коммерческих зданий по типу предоставляемых услуг. Целью исследования является разработка комбинированной многорукавной нейросетевой модели для решения задачи классификации фасадов коммерческих зданий по типу предоставляемых услуг, а также исследование её эффективности. Для достижения поставленной цели предлагается спроектировать и реализовать комбинированную многорукавную нейросетевую архитектуру, разработать специальные модули в составе архитектуры, позволяющие извлекать дескрипторы из участков изображения, а также исследовать эффективность применения полученных модулей в составе комбинированного многорукавного нейросетевого классификатора. В качестве решения предлагается архитектура комбинированного классификатора, а также различные типы дескрипторов: на основе свёрточных нейронных сетей и на основе обучаемых параметризованных стратегий движения агентов. Для сравнения разработанных подходов и проверки их эффективности используются два набора данных фотографий фасадов коммерческих зданий, сгруппированных по типу представленного бизнеса. В результате разработана комбинированная многорукавная свёрточная нейросетевая модель, которая продемонстрировала лучшее качество по метрике F1. Дальнейшие исследования могут быть направлены на изучение новых дескрипторов с целью дальнейшего улучшения достигнутых результатов.

This graduate qualification work deals with the problem of classifying images of commercial building facades according to the type of services provided. The object of the research is a combined multi-arm neural network architecture with special descriptors of image areas with text. The subject of the research is the applicability and effectiveness of these models for solving the problem of classifying photos of commercial building facades by type of services provided. The aim of the graduate qualification work is to develop a combined multi-arm neural network model to solve the problem of classifying the facades of commercial buildings by type of services, and research its effectiveness. To achieve this goal, it is proposed to design and implement a combined multi-arm neural network architecture, develop special modules in the architecture, allowing to extract descriptors from image sections, and to study the effectiveness of these modules in the combined multi-arm neural network classifier. As a solution, the architecture of combined classifier is proposed, as well as different types of descriptors: based on convolutional neural networks and on the basis of trainable parametrized strategies of movement of agents. To compare the developed approaches and test their effectiveness, two sets of commercial building images, grouped by the type of business represented, are used. As a result, a combined multi-arm convolutional neural network model is developed, which has demonstrated the best performance on the F1 metric. Further research can be aimed at exploring new descriptors to further improve the results achieved.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous
  • Исследование и разработка комбинированной многорукавной свёрточной нейросетевой модели для решения задачи классификации мультимодального контента
    • Введение
    • 1. Обзор предметной области
    • 2. Проектирование комбинированного многорукавного нейросетевого классификатора
    • 3. Детали реализации
    • 4. Тестирование
    • Заключение
    • Список использованных источников
    • Приложение 1. Код реализации модели
    • Приложение 2. Код реализации дескрипторов

Access count: 9 
Last 30 days: 0

Detailed usage statistics