Исследование алгоритм распознавание рукописного текста с использованием машинного обучения: выпускная квалификационная работа бакалавра: направление 02.03.01 «Математика и компьютерные науки» ; образовательная программа 02.03.01_01 «Системы искусственного интеллекта и суперкомпьютерные технологии»

Черников, Степан Георгиевич

Вход в систему

Детальная информация

	Таблица	Карточка	RUSMARC

Название:	Исследование алгоритм распознавание рукописного текста с использованием машинного обучения: выпускная квалификационная работа бакалавра: направление 02.03.01 «Математика и компьютерные науки» ; образовательная программа 02.03.01_01 «Системы искусственного интеллекта и суперкомпьютерные технологии»
Авторы:	Черников Степан Георгиевич
Научный руководитель:	Курочкин Михаил Александрович
Организация:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения:	Санкт-Петербург, 2022
Коллекция:	Выпускные квалификационные работы; Общая коллекция
Тематика:	распознавание рукописного текста; компьютерное зрение; нейронные сети; машинное обучение; handwriting text recognition; computer vision; neural networks; machine learning
Тип документа:	Выпускная квалификационная работа бакалавра
Тип файла:	PDF
Язык:	Русский
Уровень высшего образования:	Бакалавриат
Код специальности ФГОС:	02.03.01
Группа специальностей ФГОС:	020000 - Компьютерные и информационные науки
DOI:	10.18720/SPBPU/3/2022/vr/vr22-2830
Права доступа:	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи:	ru\spstu\vkr\19739

Разрешенные действия: –

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

На сегодняшний день одной из нерешенных задач в области компьютерного зрения и искусственного интеллекта является задача распознавания рукописного текста. Различные решения данной задачи или применимы в узких областях и не претендуют на общность, или показывают недостаточное качество распознавания. В работе исследуется задача распознавания рукописного кириллического текста. Рассматриваются предложенные ранее актуальные решения данной задачи, предлагается общая структура алгоритма распознавания, методы решения подзадач и программная реализация отдельных модулей. Разработанный алгоритм распознавания текста основан на выделении в тексте отдельных слов и распознавании в них отдельных символов при помощи нейронных сетей. Результаты распознавания символов обобщаются применением алгоритма постобработки, который определяет наиболее достоверные варианты распознанного слова. В работе предлагаются решения для каждого из этапов работы алгоритма и вспомогательных задач. Решаются задачи предобработки изображения, выделения на нем границ слов и задачи постобработки. Решается задача построения жизненного цикла нейронной сети, предназначенной для распознавания символов, в частности, задача построения размеченной выборки с границами отдельных символов. Также решается задача подбора макропараметров алгоритма постобработки с использованием алгоритма на основе эволюционной стратегии.

Today, one of the unsolved problems in the area of computer vision and artificial intelligence is the problem of recognition handwriting text. Various solutions to this problem do not pretend to be general, or to lack the quality of properties.This paper research the problem of recognition handwriting Cyrillic text. There is a review of previously proposed decisions of this problem. A text recognition algorithm has been developed based on the selection of detached words in the text and the detection of detached characters in them using neural networks. Character recognition results are summarized by applying a post-processing algorithm that determines the most likely variants of the recognized word. The paper considers solutions for each of the studies of the algorithm and auxiliary problems. The tasks of image preprocessing, word boundaries detection and post-processing tasks are solved. The problem of constructing the life cycle of a neural network designed for large symbols is being solved, in particular, the problem of constructing a labeled sample with boundaries of individual symbols. The problem of selection of macro parameters for the post-processing algorithm is also solved using an algorithm based on an evolutionary strategy.

Права на использование объекта хранения

	Место доступа		Группа пользователей		Действие
	Локальная сеть ИБК СПбПУ		Все
	Интернет		Авторизованные пользователи СПбПУ
	Интернет		Анонимные пользователи

1. Обзор литературы
- 1.1. Применение сверточных и рекуррентных нейронных сетей и гейтов
  - 1.1.1. Общая архитектура нейронной сети
  - 1.1.2. Описание фрагмента encoder
  - 1.1.3. Описание фрагмента decoder
  - 1.1.4. Обучение и результаты работы
- 1.2. Аугментация данных и архитектура с использованием Resnet blocks
  - 1.2.1. Аугментация данных
  - 1.2.2. Архитектура нейронной сети
  - 1.2.3. Обучение и результаты работы
- 1.3. Применение механизма внимания
  - 1.3.1. Сверточная нейронная сеть
  - 1.3.2. Механизм внимания
  - 1.3.3. Обучение и результаты работы
- 1.4. Резюме предложенных решений
2. Постановка задачи
3. Разработка решения
- 3.1. Общая архитектура системы распознавания текста
- 3.2. Предобработка изображения
  - 3.2.1. Фильтрация изображения
  - 3.2.2. Бинаризация изображения
  - 3.2.3. Выводы из предложенных методов предобработки
- 3.3. Сегментация слов на изображении
  - 3.3.1. Алгоритм грубого поиска
  - 3.3.2. Алгоритм точного поиска
  - 3.3.3. Гибридный алгоритм сегментации
  - 3.3.4. Выводы из предложенных методов сегментации слов
- 3.4. Распознавание символов
  - 3.4.1. Формирование обучающей выборки
  - 3.4.2. Преобразование выборки
  - 3.4.3. Разработка модели
  - 3.4.4. Функция потерь
  - 3.4.5. Выводы из предложенного метода распознавания символов
- 3.5. Распознавание слов
  - 3.5.1. Описание алгоритма
  - 3.5.2. Настройка макропараметров алгоритма
  - 3.5.3. Выводы из предложенного метода распознавания слов
4. Практическая реализация предложенного решения
- 4.1. Предварительная обработка изображения
  - 4.1.1. Реализация класса PicHandler
  - 4.1.2. Реализация класса SegAnalyzer
  - 4.1.3. Реализация класса Segmentator
- 4.2. Обработка слабо размеченной выборки
  - 4.2.1. Реализация класса RelationDatabase
  - 4.2.2. Реализация класса DatasetRebuilder
- 4.3. Алгоритм постобработки
  - 4.3.1. Реализация алгоритма постобработки
  - 4.3.2. Реализация алгоритма определения макропараметров
5. Результаты работы
- 5.1. Исследование алгоритмов предобработки
  - 5.1.1. Описание тестовых данных
  - 5.1.2. Применение фильтров
  - 5.1.3. Выполнение бинаризации
  - 5.1.4. Совместное применение фильтра Гаусса и адаптивной бинаризации
  - 5.1.5. Обсуждение результатов предобработки
- 5.2. Исследование алгоритмов сегментации слов
  - 5.2.1. Описание тестовых данных
  - 5.2.2. Применение различных алгоритмов сегментации слов
  - 5.2.3. Обсуждение результатов сегментации
- 5.3. Исследование алгоритма разметки выборки
  - 5.3.1. Примеры работы
  - 5.3.2. Обсуждение результатов работы алгоритма разметки
Список литературы
. Исходный код класса PicHandler
. Исходный код алгоритмов грубого и точного поиска
. Исходный код алгоритмов разметки выборки
. Исходный код класса Joiner
. Исходный код алгоритма на основе эволюционной стратегии

Статистика использования

Количество обращений: 9
За последние 30 дней: 1
Подробная статистика

Детальная информация

Аннотация

Права на использование объекта хранения

Оглавление

Статистика использования