Details
Title | Методы машинного обучения в задаче распознавания рукописного текста: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_02 «Организация и управление суперкомпьютерными системами» |
---|---|
Creators | Черников Степан Георгиевич |
Scientific adviser | Попов Сергей Геннадьевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2024 |
Collection | Выпускные квалификационные работы; Общая коллекция |
Subjects | распознавание рукописного текста; компьютерное зрение; нейронные сети; машинное обучение; handwritten text recognition; computer vision; neural networks; machine learning |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 02.04.01 |
Speciality group (FGOS) | 020000 - Компьютерные и информационные науки |
DOI | 10.18720/SPBPU/3/2024/vr/vr24-5641 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Record key | ru\spstu\vkr\33233 |
Record create date | 8/29/2024 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
На сегодняшний день во многих предметных областях существует значительный массив рукописных документов и необходимость систематизировать содержащуюся в нем информацию, представив ее в машиночитаемом виде. Сложность данной операции состоит в том, что, в отличие от печатных, рукописные шрифты обладают большой изменчивостью как со временем, так и в рамках одного периода. Существующие на данный момент решения имеют точность, которая неприемлема на практике, поэтому проблема актуальна на данный момент. В данной работе изучается задача распознавания рукописного кириллического текста. Рассматриваются предложенные ранее актуальные решения данной задачи, предлагается общая структура алгоритма распознавания, методы решения подзадач и программная реализация отдельных модулей. Разработанный метод распознавания текста основан на выделении в тексте отдельных слов и их распознавания при помощи нейронной сети. Для обучения сети предложен метод формирования синтетической выборки произвольного размера, обеспечивающей изменчивость в почерке и возможность учета помарок в тексте. Для генерации синтетической выборки используется вспомогательную модель распознавания слов и применяется метод валидации образцов символов. В рамках работы решаются задачи предобработки изображения, выделения на нем границ слов и непосредственно обучения модели для распознавания текста. Решается задача построения жизненного цикла двух нейронных сетей: основной и вспомогательной.
Today, in many subject areas, there is a significant amount of handwritten documents and the need to systematize the information contained in it, presenting it in machine-readable form. The complexity of this operation lies in the fact that, unlike printed ones, handwritten fonts exhibit great variability both over time and within one period. Currently existing solutions have an accuracy that is unacceptable in practice, so the problem is relevant at the moment. In this paper, we study the problem of recognizing handwritten Cyrillic text. Previously proposed relevant solutions to this problem are considered, the general structure of the recognition algorithm, methods for solving subtasks and software implementation of individual modules are proposed. The developed text recognition method is based on identifying individual words in the text and recognizing them using a neural network. To train the network, a method is proposed for generating a synthetic sample of arbitrary size, which ensures variability in handwriting and the ability to take into account blots in the text. To generate a synthetic sample, an auxiliary word recognition model is used and a character sample validation method is applied. As part of the work, the problems of image preprocessing, highlighting word boundaries on it, and directly training the model for text recognition are solved. The problem of constructing the life cycle of two neural networks is solved: the main and auxiliary ones.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- 1. Обзор литературы
- 1.1. Общий подход в современных решениях
- 1.1.1. Описание вывода Connectionist temporal classification
- 1.1.2. Функция потерь Connectionist temporal classification
- 1.1.3. Общее решение задачи распознавания слов
- 1.2. Сверточные гейты в рекуррентной сети
- 1.2.1. Архитектура нейронной сети
- 1.2.2. Особенности архитектуры
- 1.2.3. Обучение и результаты работы
- 1.3. Построение синтетической выборки
- 1.3.1. Аугментация данных
- 1.3.2. Архитектура нейронной сети
- 1.3.3. Обучение и результаты работы
- 1.4. Применение механизма внимания
- 1.4.1. Сверточная нейронная сеть
- 1.4.2. Механизм внимания
- 1.4.3. Обучение и результаты работы
- 1.5. Резюме предложенных решений
- 1.1. Общий подход в современных решениях
- 2. Постановка задачи
- 3. Разработка решения
- 3.1. Генерация обучающей выборки
- 3.1.1. Постановка задачи
- 3.1.2. Подход к решению
- 3.1.3. Вспомогательная модель (апостериорная разметка)
- 3.1.4. Априорная разметка
- 3.2. Описание основного решения
- 3.2.1. Предобработка изображения
- 3.2.2. Сегментация слов на изображении
- 3.2.3. Распознавание слов
- 3.1. Генерация обучающей выборки
- 4. Практическая реализация предложенного решения
- 4.1. Предобработка изображения
- 4.1.1. Примеры работы алгоритма бинаризации
- 4.2. Поиск слов
- 4.2.1. Реализация графов
- 4.2.2. Объединение компонент связности и диакритики
- 4.2.3. Примеры работы алгоритма поиска слов
- 4.3. Обучение моделей
- 4.4. Генерация выборки
- 4.4.1. Разметка символов
- 4.4.2. Генерация изображений
- 4.1. Предобработка изображения
- 5. Результаты работы
- 5.1. Основное решение
- 5.1.1. Исследование алгоритма поиска слов
- 5.2. Результаты подготовки обучающей выборки
- 5.2.1. Результаты обучения модели апостериорной разметки
- 5.2.2. Разметка символов
- 5.2.3. Генерация слов
- 5.1. Основное решение
- Список литературы
- . Исходный код алгоритма поиска слов
- . Исходный код моделей
- . Исходный код фунций разметки и генерации
Access count: 4
Last 30 days: 0