Details

Title: Разработка и обучение модели для автоматизации извлечения текста из изображений: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Прикладная информатика в области информационных ресурсов»
Creators: Сидорова Елена Сергеевна
Scientific adviser: Тушканова Ольга Николаевна
Other creators: Пархоменко Владимир Андреевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2021
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: машинное обучение; нейронные сети; оптическое распознавание печатных символов; обработка изображений; machine learning; neural networks; optical character recognition; image processing
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 09.03.03
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-2642
Rights: Доступ по паролю из сети Интернет (чтение)
Record key: ru\spstu\vkr\14207

Allowed Actions:

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В работе изложено описание алгоритма распознавания печатных символов на изображении при помощи нейронной сети с использованием программной библиотеки для машинного обучения PyTorch. Рассмотрены основные понятия и архитектуры нейронных сетей, более подробно рассмотрена архитектура сверточных нейронных сетей. Проведен анализ существующих решений для распознавания символов на изображении, рассмотрены коммерческие продукты для распознавания символов на изображении, а также различные программные библиотеки машинного обучения. Разработан алгоритм для автоматизации извлечения текста из выделенных частей изображения с использованием нейросети с архитектурой Wide ResNet и библиотеки для работы с изображениями OpenCV. Работа алгоритма протестирована на выбранном датасете чеков, на основе тестов сделаны выводы по дальнейшему усовершенствованию алгоритма.

In the given work describes an algorithm for recognizing printed characters in an image using a neural network using the software library for machine learning PyTorch. The basic concepts and architectures of neural networks are considered, and the architecture of convolutional neural networks is considered in more detail. The analysis of existing solutions for character recognition in the image is carried out, commercial products for character recognition in the image are considered, as well as various machine learning software libraries. An algorithm has been developed for automating text extraction from selected parts of an image using a neural network with the Wide ResNet architecture and an OpenCV image library. The algorithm was tested on the selected receipt dataset, and based on the tests, conclusions were drawn on further improvement of the algorithm.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read
External organizations N2 All Read
External organizations N1 All
Internet Authorized users SPbPU Read
Internet Authorized users (not from SPbPU, N2) Read
Internet Authorized users (not from SPbPU, N1)
-> Internet Anonymous

Table of Contents

  • Разработка и обучение модели для автоматизации извлечения текста из изображений
    • Введение
    • 1. Структура и принципы работы нейронных сетей
    • 2. Подходы к распознаванию символов на изображении
    • 3. Разработка алгоритма для распознавания символов на изображении
    • 4. Тестирование разработанного алгоритма
    • Заключение
    • Список использованных источников
    • Приложение 1. Исходный код для масштабирования изображений в датасете с буквами
    • Приложение 2. Исходный код модели и процесса ее обучения
    • Приложение 3. Исходный код алгоритма для распознавания символов на изображении
    • Приложение 4. Исходный код преобразования чеков в формате PDF в формат JPG
    • Приложение 5. Исходный код проверки точности распознавания с помощью расстояния Левенштейна

Usage statistics

stat Access count: 6
Last 30 days: 1
Detailed usage statistics