Details
Title | Распознавание химической структуры молекулы методами машинного обучения: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_02 «Математические методы анализа и визуализации данных» |
---|---|
Creators | Дамаскинский Константин Александрович |
Scientific adviser | Чуканов Вячеслав Сергеевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт |
Imprint | Санкт-Петербург, 2023 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | Машинное обучение ; Химия ; задача распознавания ; object detection |
UDC | 004.85 ; 54 |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 01.04.02 |
Speciality group (FGOS) | 010000 - Математика и механика |
DOI | 10.18720/SPBPU/3/2023/vr/vr23-5817 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Record key | ru\spstu\vkr\24352 |
Record create date | 7/28/2023 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Целью данной работы является построение программного продукта, который позволяет распознавать структуру химических, в том числе стереоорганических, молекул. Основным требованием является способность распознавать изображения, полученные из сканов печатной литературы и электронных документов. При выполнении работы произведён анализ программных продуктов, выполняющих задачу распознавания структуры молекулы, основанных на принципах оптического распознавания знаков (алгоритмический подход) и машинного обучения. Разработано решение в парадигме машинного обучения: построен конвейер из трёх моделей машинного обучения с архитекурами Faster R-CNN, CNN и CNN. В открытых источниках найден набор InChI-последовательностей для обучения и тестирования моделей. Реализован генератор изображений молекул с различными аугментациями, такими как изменение разрешения изображения, толщина и длина линий связей, шрифты меток атомов, гауссовский шум на изображении. Построен алгоритм, осуществляющий сборку молекулы из распознанных компонентов и валидацию построенного химического соединения. Оценено качество для всех этапов полученного решения. Произведено сравнение качества с существующими решениями. Выполнены замеры производительности программного продукта. Работа реализована на языке программирования Python. Обучение производилось на платформе Google Cloud и на персональном ноутбуке с видеокартой.
This study aims at building a software product capable of recognizing the structure of chemical molecules, stereoorganic ones in particular. The primary feature of this product is the ability to recognize images from photocopies of print materials and electronic documents. The study involved the analysis of the software products designed to recognize the structure of a molecule, that are based on optical character recognition (algorithmic approach) and machine learning. The solution was developed in the machine learning paradigm, and it included building a pipeline of three machine learning models with the Faster R-CNN, CNN and CNN architectures. A set of InChl sequences used for training and testing models was found in open source. A generator was developed for producing molecule images with various augmentations, such as changing image resolution, varying thickness and length of lines representing the bonds between atoms, atomic label fonts, Gaussian noise. An algorithm was designed to assemble the correctly recognized chemical components into one molecule and then validate the resulting chemical compound. The quality of image recognition and molecule assembly was assessed and compared with the existing solutions. The software product performance was measured and evaluated. The software code is written in the Python programming language. The models were trained on the Google Cloud platform and on personal computer with a GPU.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- Распознавание химической структуры молекулы методами машинного обучения
- Введение
- 1. Постановка задачи распознавания молекулы. Методы решения
- 2. Построение конвейера машинного обучения. Генерация данных
- 3. Результаты работы конвейера моделей
- Заключение
- Список использованных источников
- Приложение 1. Архитектура Faster R-CNN
Access count: 14
Last 30 days: 0