Details
Title | Разработка модели классификации белков на основе методов топологического анализа данных: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение» |
---|---|
Creators | Линде Даниил Викторович |
Scientific adviser | Уткин Лев Владимирович |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2024 |
Collection | Выпускные квалификационные работы; Общая коллекция |
Subjects | топологический анализ данных; персистентная гомология; структура белка; классификация текста; topological data analysis; persistent homology; protein structure; text classification |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 02.04.01 |
Speciality group (FGOS) | 020000 - Компьютерные и информационные науки |
DOI | 10.18720/SPBPU/3/2024/vr/vr24-5045 |
Rights | Доступ по паролю из сети Интернет (чтение, печать) |
Additionally | New arrival |
Record key | ru\spstu\vkr\33214 |
Record create date | 8/29/2024 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Тема выпускной квалификационной работы: «Разработка модели классификации белков на основе методов топологического анализа данных». Данная работа для решения задачи классификации белка по буквенным последовательностям, описывающим его первичную и вторичную структуры, для определения у него наличия или отсутствия искомого свойства. Для этого были были изучены имеющиеся методы решения классификации текстовых последовательностей и обнаружена проблема несбалансированности классов. Для решения данной проблемы были исследованы методы топологического анализа данных для создания нового набора данных, состоящего из топологических дескрипторов вместо текста. Для этого были приведены алгоритмы их построения и экспериментально исследованы разные комбинации этих дескрипторов для формирования нового набора данных. Соответственно был предложен алгоритм для сведения текстовых последовательностей к выборакам, с которыми можно сопоставить топологические представления. Далее было выполнено сравнение классических методов классификации табличных данных, включая случайный лес, бустинг и логистическую регрессию. В ходе работы была подобрана модель с параметрами, дающими наилучшую точностей для решаемой задачи, и исследовано влияние длины белка на точность решения задачи.
This paper is about solution the problem of classifying a protein by letter sequences describing its primary and secondary structures, to determine whether it has the desired property or not. To do this, the available methods for solving the classification of text sequences were studied and the problem of class imbalance was discovered. To solve this problem, methods of topological data analysis were investigated to create a new dataset consisting of topological descriptors instead of text. To do this, algorithms for their calculation were researched and different combinations of these descriptors were experimentally compared to form a new data set. Accordingly, an algorithm was proposed to reduce text sequences to samples with which topological representations can be compared. Next, a comparison was made of classical machine learning methods for classifying tabular data, including random forest, boosting and logistic regression. In the course of the work, a model was selected with parameters that give the best accuracy and the effect of protein length on the accuracy was studied.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 2
Last 30 days: 2