Методы машинного обучения в задаче распознавания рукописного текста: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_02 «Организация и управление суперкомпьютерными системами»

Черников, Степан Георгиевич

Details

Title	Методы машинного обучения в задаче распознавания рукописного текста: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_02 «Организация и управление суперкомпьютерными системами»
Creators	Черников Степан Георгиевич
Scientific adviser	Попов Сергей Геннадьевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2024
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	распознавание рукописного текста ; компьютерное зрение ; нейронные сети ; машинное обучение ; handwritten text recognition ; computer vision ; neural networks ; machine learning
Document type	Master graduation qualification work
File type	PDF
Language	Russian
Level of education	Master
Speciality code (FGOS)	02.04.01
Speciality group (FGOS)	020000 - Компьютерные и информационные науки
DOI	10.18720/SPBPU/3/2024/vr/vr24-5641
Rights	Доступ по паролю из сети Интернет (чтение)
Record key	ru\spstu\vkr\33233
Record create date	8/29/2024

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

На сегодняшний день во многих предметных областях существует значительный массив рукописных документов и необходимость систематизировать содержащуюся в нем информацию, представив ее в машиночитаемом виде. Сложность данной операции состоит в том, что, в отличие от печатных, рукописные шрифты обладают большой изменчивостью как со временем, так и в рамках одного периода. Существующие на данный момент решения имеют точность, которая неприемлема на практике, поэтому проблема актуальна на данный момент. В данной работе изучается задача распознавания рукописного кириллического текста. Рассматриваются предложенные ранее актуальные решения данной задачи, предлагается общая структура алгоритма распознавания, методы решения подзадач и программная реализация отдельных модулей. Разработанный метод распознавания текста основан на выделении в тексте отдельных слов и их распознавания при помощи нейронной сети. Для обучения сети предложен метод формирования синтетической выборки произвольного размера, обеспечивающей изменчивость в почерке и возможность учета помарок в тексте. Для генерации синтетической выборки используется вспомогательную модель распознавания слов и применяется метод валидации образцов символов. В рамках работы решаются задачи предобработки изображения, выделения на нем границ слов и непосредственно обучения модели для распознавания текста. Решается задача построения жизненного цикла двух нейронных сетей: основной и вспомогательной.

Today, in many subject areas, there is a significant amount of handwritten documents and the need to systematize the information contained in it, presenting it in machine-readable form. The complexity of this operation lies in the fact that, unlike printed ones, handwritten fonts exhibit great variability both over time and within one period. Currently existing solutions have an accuracy that is unacceptable in practice, so the problem is relevant at the moment. In this paper, we study the problem of recognizing handwritten Cyrillic text. Previously proposed relevant solutions to this problem are considered, the general structure of the recognition algorithm, methods for solving subtasks and software implementation of individual modules are proposed. The developed text recognition method is based on identifying individual words in the text and recognizing them using a neural network. To train the network, a method is proposed for generating a synthetic sample of arbitrary size, which ensures variability in handwriting and the ability to take into account blots in the text. To generate a synthetic sample, an auxiliary word recognition model is used and a character sample validation method is applied. As part of the work, the problems of image preprocessing, highlighting word boundaries on it, and directly training the model for text recognition are solved. The problem of constructing the life cycle of two neural networks is solved: the main and auxiliary ones.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

1. Обзор литературы
- 1.1. Общий подход в современных решениях
  - 1.1.1. Описание вывода Connectionist temporal classification
  - 1.1.2. Функция потерь Connectionist temporal classification
  - 1.1.3. Общее решение задачи распознавания слов
- 1.2. Сверточные гейты в рекуррентной сети
  - 1.2.1. Архитектура нейронной сети
  - 1.2.2. Особенности архитектуры
  - 1.2.3. Обучение и результаты работы
- 1.3. Построение синтетической выборки
  - 1.3.1. Аугментация данных
  - 1.3.2. Архитектура нейронной сети
  - 1.3.3. Обучение и результаты работы
- 1.4. Применение механизма внимания
  - 1.4.1. Сверточная нейронная сеть
  - 1.4.2. Механизм внимания
  - 1.4.3. Обучение и результаты работы
- 1.5. Резюме предложенных решений
2. Постановка задачи
3. Разработка решения
- 3.1. Генерация обучающей выборки
  - 3.1.1. Постановка задачи
  - 3.1.2. Подход к решению
  - 3.1.3. Вспомогательная модель (апостериорная разметка)
  - 3.1.4. Априорная разметка
- 3.2. Описание основного решения
  - 3.2.1. Предобработка изображения
  - 3.2.2. Сегментация слов на изображении
  - 3.2.3. Распознавание слов
4. Практическая реализация предложенного решения
- 4.1. Предобработка изображения
  - 4.1.1. Примеры работы алгоритма бинаризации
- 4.2. Поиск слов
  - 4.2.1. Реализация графов
  - 4.2.2. Объединение компонент связности и диакритики
  - 4.2.3. Примеры работы алгоритма поиска слов
- 4.3. Обучение моделей
- 4.4. Генерация выборки
  - 4.4.1. Разметка символов
  - 4.4.2. Генерация изображений
5. Результаты работы
- 5.1. Основное решение
  - 5.1.1. Исследование алгоритма поиска слов
- 5.2. Результаты подготовки обучающей выборки
  - 5.2.1. Результаты обучения модели апостериорной разметки
  - 5.2.2. Разметка символов
  - 5.2.3. Генерация слов
Список литературы
. Исходный код алгоритма поиска слов
. Исходный код моделей
. Исходный код фунций разметки и генерации

Access count: 5
Last 30 days: 1

Detailed usage statistics