Details

Title Распознавание химической структуры молекулы методами машинного обучения: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_02 «Математические методы анализа и визуализации данных»
Creators Дамаскинский Константин Александрович
Scientific adviser Чуканов Вячеслав Сергеевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Imprint Санкт-Петербург, 2023
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects Машинное обучение ; Химия ; задача распознавания ; object detection
UDC 004.85 ; 54
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 01.04.02
Speciality group (FGOS) 010000 - Математика и механика
DOI 10.18720/SPBPU/3/2023/vr/vr23-5817
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key ru\spstu\vkr\24352
Record create date 7/28/2023

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

Целью данной работы является построение программного продукта, который позволяет распознавать структуру химических, в том числе стереоорганических, молекул. Основным требованием является способность распознавать изображения, полученные из сканов печатной литературы и электронных документов. При выполнении работы произведён анализ программных продуктов, выполняющих задачу распознавания структуры молекулы, основанных на принципах оптиче­ского распознавания знаков (алгоритмический подход) и машинного обучения. Разработано решение в парадигме машинного обучения: построен конвейер из трёх моделей машинного обучения с архитекурами Faster R-CNN, CNN и CNN. В открытых источниках найден набор InChI-последовательностей для обучения и тестирования моделей. Реализован генератор изображений молекул с различными аугментациями, такими как изменение разрешения изображения, толщина и длина линий связей, шрифты меток атомов, гауссовский шум на изображении. Построен алгоритм, осуществляющий сборку молекулы из распознанных компонентов и валидацию построенного химического соединения. Оценено качество для всех этапов полученного решения. Произведено сравнение качества с существующими решениями. Выполнены замеры производительности программного продукта. Работа реализована на языке программирования Python. Обучение производилось на платформе Google Cloud и на персональном ноутбуке с видеокартой.

This study aims at building a software product capable of recognizing the structure of chemical molecules, stereoorganic ones in particular. The primary feature of this product is the ability to recognize images from photocopies of print materials and electronic documents. The study involved the analysis of the software products designed to recognize the structure of a molecule, that are based on optical character recognition (algorithmic approach) and machine learning. The solution was developed in the machine learning paradigm, and it included building a pipeline of three machine learning models with the Faster R-CNN, CNN and CNN architectures. A set of InChl sequences used for training and testing models was found in open source. A generator was developed for producing molecule images with various augmentations, such as changing image resolution, varying thickness and length of lines representing the bonds between atoms, atomic label fonts, Gaussian noise. An algorithm was designed to assemble the correctly recognized chemical components into one molecule and then validate the resulting chemical compound. The quality of image recognition and molecule assembly was assessed and compared with the existing solutions. The software product performance was measured and evaluated. The software code is written in the Python programming language. The models were trained on the Google Cloud platform and on personal computer with a GPU.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous
  • Распознавание химической структуры молекулы методами машинного обучения
    • Введение
    • 1. Постановка задачи распознавания молекулы. Методы решения
    • 2. Построение конвейера машинного обучения. Генерация данных
    • 3. Результаты работы конвейера моделей
    • Заключение
    • Список использованных источников
    • Приложение 1. Архитектура Faster R-CNN

Access count: 14 
Last 30 days: 0

Detailed usage statistics