Детальная информация

Название: Разработка и обучение модели для автоматизации извлечения текста из изображений: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Прикладная информатика в области информационных ресурсов»
Авторы: Сидорова Елена Сергеевна
Научный руководитель: Тушканова Ольга Николаевна
Другие авторы: Пархоменко Владимир Андреевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2021
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: машинное обучение; нейронные сети; оптическое распознавание печатных символов; обработка изображений; machine learning; neural networks; optical character recognition; image processing
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.03
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-2642
Права доступа: Доступ по паролю из сети Интернет (чтение)
Ключ записи: ru\spstu\vkr\14207

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В работе изложено описание алгоритма распознавания печатных символов на изображении при помощи нейронной сети с использованием программной библиотеки для машинного обучения PyTorch. Рассмотрены основные понятия и архитектуры нейронных сетей, более подробно рассмотрена архитектура сверточных нейронных сетей. Проведен анализ существующих решений для распознавания символов на изображении, рассмотрены коммерческие продукты для распознавания символов на изображении, а также различные программные библиотеки машинного обучения. Разработан алгоритм для автоматизации извлечения текста из выделенных частей изображения с использованием нейросети с архитектурой Wide ResNet и библиотеки для работы с изображениями OpenCV. Работа алгоритма протестирована на выбранном датасете чеков, на основе тестов сделаны выводы по дальнейшему усовершенствованию алгоритма.

In the given work describes an algorithm for recognizing printed characters in an image using a neural network using the software library for machine learning PyTorch. The basic concepts and architectures of neural networks are considered, and the architecture of convolutional neural networks is considered in more detail. The analysis of existing solutions for character recognition in the image is carried out, commercial products for character recognition in the image are considered, as well as various machine learning software libraries. An algorithm has been developed for automating text extraction from selected parts of an image using a neural network with the Wide ResNet architecture and an OpenCV image library. The algorithm was tested on the selected receipt dataset, and based on the tests, conclusions were drawn on further improvement of the algorithm.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать
Внешние организации №2 Все Прочитать
Внешние организации №1 Все
Интернет Авторизованные пользователи СПбПУ Прочитать
Интернет Авторизованные пользователи (не СПбПУ, №2) Прочитать
Интернет Авторизованные пользователи (не СПбПУ, №1)
-> Интернет Анонимные пользователи

Оглавление

  • Разработка и обучение модели для автоматизации извлечения текста из изображений
    • Введение
    • 1. Структура и принципы работы нейронных сетей
    • 2. Подходы к распознаванию символов на изображении
    • 3. Разработка алгоритма для распознавания символов на изображении
    • 4. Тестирование разработанного алгоритма
    • Заключение
    • Список использованных источников
    • Приложение 1. Исходный код для масштабирования изображений в датасете с буквами
    • Приложение 2. Исходный код модели и процесса ее обучения
    • Приложение 3. Исходный код алгоритма для распознавания символов на изображении
    • Приложение 4. Исходный код преобразования чеков в формате PDF в формат JPG
    • Приложение 5. Исходный код проверки точности распознавания с помощью расстояния Левенштейна

Статистика использования

stat Количество обращений: 4
За последние 30 дней: 1
Подробная статистика