Разработка модели классификации белков на основе методов топологического анализа данных: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»

Линде, Даниил Викторович

Details

Title	Разработка модели классификации белков на основе методов топологического анализа данных: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»
Creators	Линде Даниил Викторович
Scientific adviser	Уткин Лев Владимирович
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2024
Collection	Выпускные квалификационные работы; Общая коллекция
Subjects	топологический анализ данных; персистентная гомология; структура белка; классификация текста; topological data analysis; persistent homology; protein structure; text classification
Document type	Master graduation qualification work
File type	PDF
Language	Russian
Level of education	Master
Speciality code (FGOS)	02.04.01
Speciality group (FGOS)	020000 - Компьютерные и информационные науки
DOI	10.18720/SPBPU/3/2024/vr/vr24-5045
Rights	Доступ по паролю из сети Интернет (чтение, печать)
Additionally	New arrival
Record key	ru\spstu\vkr\33214
Record create date	8/29/2024

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Тема выпускной квалификационной работы: «Разработка модели классификации белков на основе методов топологического анализа данных». Данная работа для решения задачи классификации белка по буквенным последовательностям, описывающим его первичную и вторичную структуры, для определения у него наличия или отсутствия искомого свойства. Для этого были были изучены имеющиеся методы решения классификации текстовых последовательностей и обнаружена проблема несбалансированности классов. Для решения данной проблемы были исследованы методы топологического анализа данных для создания нового набора данных, состоящего из топологических дескрипторов вместо текста. Для этого были приведены алгоритмы их построения и экспериментально исследованы разные комбинации этих дескрипторов для формирования нового набора данных. Соответственно был предложен алгоритм для сведения текстовых последовательностей к выборакам, с которыми можно сопоставить топологические представления. Далее было выполнено сравнение классических методов классификации табличных данных, включая случайный лес, бустинг и логистическую регрессию. В ходе работы была подобрана модель с параметрами, дающими наилучшую точностей для решаемой задачи, и исследовано влияние длины белка на точность решения задачи.

This paper is about solution the problem of classifying a protein by letter sequences describing its primary and secondary structures, to determine whether it has the desired property or not. To do this, the available methods for solving the classification of text sequences were studied and the problem of class imbalance was discovered. To solve this problem, methods of topological data analysis were investigated to create a new dataset consisting of topological descriptors instead of text. To do this, algorithms for their calculation were researched and different combinations of these descriptors were experimentally compared to form a new data set. Accordingly, an algorithm was proposed to reduce text sequences to samples with which topological representations can be compared. Next, a comparison was made of classical machine learning methods for classifying tabular data, including random forest, boosting and logistic regression. In the course of the work, a model was selected with parameters that give the best accuracy and the effect of protein length on the accuracy was studied.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 2
Last 30 days: 2

Detailed usage statistics