Разработка и обучение модели для автоматизации извлечения текста из изображений: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Прикладная информатика в области информационных ресурсов»

Сидорова, Елена Сергеевна

Детальная информация

Название	Разработка и обучение модели для автоматизации извлечения текста из изображений: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Прикладная информатика в области информационных ресурсов»
Авторы	Сидорова Елена Сергеевна
Научный руководитель	Тушканова Ольга Николаевна
Другие авторы	Пархоменко Владимир Андреевич
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения	Санкт-Петербург, 2021
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	машинное обучение ; нейронные сети ; оптическое распознавание печатных символов ; обработка изображений ; machine learning ; neural networks ; optical character recognition ; image processing
Тип документа	Выпускная квалификационная работа бакалавра
Тип файла	PDF
Язык	Русский
Уровень высшего образования	Бакалавриат
Код специальности ФГОС	09.03.03
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
Ссылки	Отзыв руководителя ; Отчет о проверке на объем и корректность внешних заимствований
DOI	10.18720/SPBPU/3/2021/vr/vr21-2642
Права доступа	Доступ по паролю из сети Интернет (чтение)
Ключ записи	ru\spstu\vkr\14207
Дата создания записи	07.09.2021

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

В работе изложено описание алгоритма распознавания печатных символов на изображении при помощи нейронной сети с использованием программной библиотеки для машинного обучения PyTorch. Рассмотрены основные понятия и архитектуры нейронных сетей, более подробно рассмотрена архитектура сверточных нейронных сетей. Проведен анализ существующих решений для распознавания символов на изображении, рассмотрены коммерческие продукты для распознавания символов на изображении, а также различные программные библиотеки машинного обучения. Разработан алгоритм для автоматизации извлечения текста из выделенных частей изображения с использованием нейросети с архитектурой Wide ResNet и библиотеки для работы с изображениями OpenCV. Работа алгоритма протестирована на выбранном датасете чеков, на основе тестов сделаны выводы по дальнейшему усовершенствованию алгоритма.

In the given work describes an algorithm for recognizing printed characters in an image using a neural network using the software library for machine learning PyTorch. The basic concepts and architectures of neural networks are considered, and the architecture of convolutional neural networks is considered in more detail. The analysis of existing solutions for character recognition in the image is carried out, commercial products for character recognition in the image are considered, as well as various machine learning software libraries. An algorithm has been developed for automating text extraction from selected parts of an image using a neural network with the Wide ResNet architecture and an OpenCV image library. The algorithm was tested on the selected receipt dataset, and based on the tests, conclusions were drawn on further improvement of the algorithm.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Разработка и обучение модели для автоматизации извлечения текста из изображений
- Введение
- 1. Структура и принципы работы нейронных сетей
- 2. Подходы к распознаванию символов на изображении
- 3. Разработка алгоритма для распознавания символов на изображении
- 4. Тестирование разработанного алгоритма
- Заключение
- Список использованных источников
- Приложение 1. Исходный код для масштабирования изображений в датасете с буквами
- Приложение 2. Исходный код модели и процесса ее обучения
- Приложение 3. Исходный код алгоритма для распознавания символов на изображении
- Приложение 4. Исходный код преобразования чеков в формате PDF в формат JPG
- Приложение 5. Исходный код проверки точности распознавания с помощью расстояния Левенштейна

Количество обращений: 17
За последние 30 дней: 0

Подробная статистика