Details

Title: Исследование применений глубокого обучения в задаче распознавания картин: выпускная квалификационная работа магистра: 09.04.04 - Программная инженерия ; 09.04.04_01 - Технология разработки и сопровождения качественного программного продукта
Creators: Валиуллин Александр Сергеевич
Scientific adviser: Дробинцев Павел Дмитриевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2019
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: Нейронные сети; Машинная графика; Распознавание образов; компьютерное зрение; дополненная реальность; глубокое обучение; сверточные нейронные сети; семантическая сегментация; обучение представлений
UDC: 004.93'1(043.3)
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Speciality code (FGOS): 09.04.04
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Рецензия
DOI: 10.18720/SPBPU/3/2019/vr/vr19-900
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В данной работе рассматриваются возможности применения глубокого обучения в создании системы дополненной реальности. Данная система позволит посетителям музеев получить всю интересующую их информацию об экспонатах самостоятельно и в удобном виде с помощью смартфона. Цель работы: создание системы распознавания картины по её фотографии с применением алгоритмов глубокого обучения. Для достижения цели необходимо решить две проблемы: выделение картины из фотографии и её идентификация. Первая проблема решается обучением полностью сверточной нейронной сети для задачи семантической сегментации изображения. Полученная модель очень точно выделяет картины на фотографии и может работать на общедоступных мобильных устройствах, таких как смартфон и планшет. Вторая проблема решается обучением сверточной нейронной сети для генерации компактного представления изображения. Идентификация картины по данным представлениям требует мало вычислительных ресурсов и, следовательно, может работать непосредственно на мобильных устройствах. Система правильно распознает около 61% картин на датасете картин из Эрмитажа, выдавая для неправильно распознанных случаев картины того же автора, жанра и стиля, что также является положительным результатом. В работе использовались как и методы глубокого обучения (с помощью библиотеки PyTorch), так и методы классического компьютерного зрения (с помощью библиотек OpenCV и SkImage).

In this work we consider the possibility of using deep learning in the creation of a museum augmented reality system. This system will allow museum’s visitors to get all information they want about the exhibits on their own and in desired form using their smartphones. The aim of this work is to create a painting recognition system using deep learning algorithms. To achieve this goal, it is necessary to solve two problems: extraction of a painting from it’s photo and painting identification. The first problem is solved by training a fully convolutional neural network for the problem of semantic image segmentation. The resulting model very accurately extracts painting from photo and can work on widely available mobile devices such as smartphones and tablets. The second problem is solved by training a convolution neural network to generate a compact representation of the image. Identifying painting on the photo using this representations requires little computing power and thus can work directly on mobile devices. The system correctly recognizes about 61% of the paintings in Hermitage paintings dataset. In incorrect cases system identifies painting as other painting of the same author, genre and style. This is also a good result. In this work we used both deep learning methods (using the PyTorch library) and classical computer vision methods (using the OpenCV and SkImage libraries).

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users Read Print Download
-> Internet Anonymous

Table of Contents

  • Введение
    • Актуальность
    • Цели и задачи
  • Обзор существующих решений
    • Обзор работ по распознаванию картин
    • Структура будущего решения
  • Алгоритмы глубокого обучения
    • Сверточные сети
    • Обнаружение объектов
      • Classification + Localization
      • Object Detection
      • Instance Segmentation
      • Semantic Segmentation
    • Обучение представлений
      • Классификационные функции потерь
      • Попарные функции потерь (Pairwise losses)
      • Триплетные функции потерь (Triplet losses)
      • Квадруплетные функции потерь (Quadruplet losses)
      • Гистограммная функция потерь (Histogram loss)
    • Обучение глубоких нейронных сетей
      • Предобработка данных
      • Инициализация весов модели
      • Batch Normalization
      • Dropout
  • Модели глубокого обучения
    • Обучение нейронных сетей
    • Модуль для выделения картины из фотографии
      • Набор данных
      • Архитектуры нейронных сетей
      • Обучение нейронных сетей
      • Пост-обработка и выделение картины
    • Модуль идентификации картины
      • Набор данных
      • Функции потерь для задачи обучения представления
      • Архитектуры нейронных сетей
      • Способы поиска ближайшего дескриптора
      • Метрики качества
      • Эксперименты и результаты
  • Заключение
  • Список литературы

Usage statistics

stat Access count: 38
Last 30 days: 0
Detailed usage statistics