Details
Title | Исследование и разработка комбинированной многорукавной свёрточной нейросетевой модели для решения задачи классификации мультимодального контента: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии» |
---|---|
Creators | Торопов Алексей Геннадьевич |
Scientific adviser | Туральчук Константин Анатольевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий |
Imprint | Санкт-Петербург, 2023 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | комбинированный классификатор ; специальные дескрипторы изображений ; визуальные и текстовые признаки ; combined classifier ; specialized image descriptors ; visual and textual features |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 09.03.03 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2023/vr/vr23-1725 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Record key | ru\spstu\vkr\22902 |
Record create date | 7/21/2023 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
В данной работе рассматривается проблема классификации фотографий фасадов коммерческих зданий по типу предоставляемых услуг. Объектом исследования является комбинированная многорукавная нейросетевая архитектура со специальными дескрипторами областей изображения с текстом. Предметом исследования является применимость и эффективность данных моделей для решения задачи классификации фотографий фасадов коммерческих зданий по типу предоставляемых услуг. Целью исследования является разработка комбинированной многорукавной нейросетевой модели для решения задачи классификации фасадов коммерческих зданий по типу предоставляемых услуг, а также исследование её эффективности. Для достижения поставленной цели предлагается спроектировать и реализовать комбинированную многорукавную нейросетевую архитектуру, разработать специальные модули в составе архитектуры, позволяющие извлекать дескрипторы из участков изображения, а также исследовать эффективность применения полученных модулей в составе комбинированного многорукавного нейросетевого классификатора. В качестве решения предлагается архитектура комбинированного классификатора, а также различные типы дескрипторов: на основе свёрточных нейронных сетей и на основе обучаемых параметризованных стратегий движения агентов. Для сравнения разработанных подходов и проверки их эффективности используются два набора данных фотографий фасадов коммерческих зданий, сгруппированных по типу представленного бизнеса. В результате разработана комбинированная многорукавная свёрточная нейросетевая модель, которая продемонстрировала лучшее качество по метрике F1. Дальнейшие исследования могут быть направлены на изучение новых дескрипторов с целью дальнейшего улучшения достигнутых результатов.
This graduate qualification work deals with the problem of classifying images of commercial building facades according to the type of services provided. The object of the research is a combined multi-arm neural network architecture with special descriptors of image areas with text. The subject of the research is the applicability and effectiveness of these models for solving the problem of classifying photos of commercial building facades by type of services provided. The aim of the graduate qualification work is to develop a combined multi-arm neural network model to solve the problem of classifying the facades of commercial buildings by type of services, and research its effectiveness. To achieve this goal, it is proposed to design and implement a combined multi-arm neural network architecture, develop special modules in the architecture, allowing to extract descriptors from image sections, and to study the effectiveness of these modules in the combined multi-arm neural network classifier. As a solution, the architecture of combined classifier is proposed, as well as different types of descriptors: based on convolutional neural networks and on the basis of trainable parametrized strategies of movement of agents. To compare the developed approaches and test their effectiveness, two sets of commercial building images, grouped by the type of business represented, are used. As a result, a combined multi-arm convolutional neural network model is developed, which has demonstrated the best performance on the F1 metric. Further research can be aimed at exploring new descriptors to further improve the results achieved.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- Исследование и разработка комбинированной многорукавной свёрточной нейросетевой модели для решения задачи классификации мультимодального контента
- Введение
- 1. Обзор предметной области
- 2. Проектирование комбинированного многорукавного нейросетевого классификатора
- 3. Детали реализации
- 4. Тестирование
- Заключение
- Список использованных источников
- Приложение 1. Код реализации модели
- Приложение 2. Код реализации дескрипторов
Access count: 9
Last 30 days: 0