Детальная информация

Название: Распознавание химической структуры молекулы методами машинного обучения: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_02 «Математические методы анализа и визуализации данных»
Авторы: Дамаскинский Константин Александрович
Научный руководитель: Чуканов Вячеслав Сергеевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Выходные сведения: Санкт-Петербург, 2023
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Машинное обучение; Химия; задача распознавания; object detection
УДК: 004.85; 54
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 01.04.02
Группа специальностей ФГОС: 010000 - Математика и механика
DOI: 10.18720/SPBPU/3/2023/vr/vr23-5817
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\24352

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Целью данной работы является построение программного продукта, который позволяет распознавать структуру химических, в том числе стереоорганических, молекул. Основным требованием является способность распознавать изображения, полученные из сканов печатной литературы и электронных документов. При выполнении работы произведён анализ программных продуктов, выполняющих задачу распознавания структуры молекулы, основанных на принципах оптиче­ского распознавания знаков (алгоритмический подход) и машинного обучения. Разработано решение в парадигме машинного обучения: построен конвейер из трёх моделей машинного обучения с архитекурами Faster R-CNN, CNN и CNN. В открытых источниках найден набор InChI-последовательностей для обучения и тестирования моделей. Реализован генератор изображений молекул с различными аугментациями, такими как изменение разрешения изображения, толщина и длина линий связей, шрифты меток атомов, гауссовский шум на изображении. Построен алгоритм, осуществляющий сборку молекулы из распознанных компонентов и валидацию построенного химического соединения. Оценено качество для всех этапов полученного решения. Произведено сравнение качества с существующими решениями. Выполнены замеры производительности программного продукта. Работа реализована на языке программирования Python. Обучение производилось на платформе Google Cloud и на персональном ноутбуке с видеокартой.

This study aims at building a software product capable of recognizing the structure of chemical molecules, stereoorganic ones in particular. The primary feature of this product is the ability to recognize images from photocopies of print materials and electronic documents. The study involved the analysis of the software products designed to recognize the structure of a molecule, that are based on optical character recognition (algorithmic approach) and machine learning. The solution was developed in the machine learning paradigm, and it included building a pipeline of three machine learning models with the Faster R-CNN, CNN and CNN architectures. A set of InChl sequences used for training and testing models was found in open source. A generator was developed for producing molecule images with various augmentations, such as changing image resolution, varying thickness and length of lines representing the bonds between atoms, atomic label fonts, Gaussian noise. An algorithm was designed to assemble the correctly recognized chemical components into one molecule and then validate the resulting chemical compound. The quality of image recognition and molecule assembly was assessed and compared with the existing solutions. The software product performance was measured and evaluated. The software code is written in the Python programming language. The models were trained on the Google Cloud platform and on personal computer with a GPU.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • Распознавание химической структуры молекулы методами машинного обучения
    • Введение
    • 1. Постановка задачи распознавания молекулы. Методы решения
    • 2. Построение конвейера машинного обучения. Генерация данных
    • 3. Результаты работы конвейера моделей
    • Заключение
    • Список использованных источников
    • Приложение 1. Архитектура Faster R-CNN

Статистика использования

stat Количество обращений: 3
За последние 30 дней: 0
Подробная статистика