Details

Title Разработка модели классификации белков на основе методов топологического анализа данных: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»
Creators Линде Даниил Викторович
Scientific adviser Уткин Лев Владимирович
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2024
Collection Выпускные квалификационные работы; Общая коллекция
Subjects топологический анализ данных; персистентная гомология; структура белка; классификация текста; topological data analysis; persistent homology; protein structure; text classification
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 02.04.01
Speciality group (FGOS) 020000 - Компьютерные и информационные науки
DOI 10.18720/SPBPU/3/2024/vr/vr24-5045
Rights Доступ по паролю из сети Интернет (чтение, печать)
Additionally New arrival
Record key ru\spstu\vkr\33214
Record create date 8/29/2024

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Тема выпускной квалификационной работы: «Разработка модели классификации белков на основе методов топологического анализа данных». Данная работа для решения задачи классификации белка по буквенным последовательностям, описывающим его первичную и вторичную структуры, для определения у него наличия или отсутствия искомого свойства. Для этого были были изучены имеющиеся методы решения классификации текстовых последовательностей и обнаружена проблема несбалансированности классов. Для решения данной проблемы были исследованы методы топологического анализа данных для создания нового набора данных,    состоящего  из топологических дескрипторов вместо текста.  Для этого были приведены алгоритмы их построения и экспериментально исследованы разные комбинации этих дескрипторов для формирования нового набора данных. Соответственно был предложен алгоритм для сведения текстовых последовательностей к выборакам, с которыми можно сопоставить топологические представления. Далее было выполнено  сравнение классических методов классификации табличных данных, включая случайный лес, бустинг  и логистическую регрессию. В ходе работы была подобрана модель с  параметрами, дающими наилучшую точностей для решаемой задачи, и исследовано влияние длины белка на  точность решения задачи.

This paper is about solution the problem of classifying a protein by letter sequences describing its primary and secondary structures, to determine whether it has the desired property or not. To do this, the available methods for solving the classification of text sequences were studied and the problem of class imbalance was discovered. To solve this problem, methods of topological data analysis were investigated to create a new dataset consisting of topological descriptors instead of text.  To do this, algorithms for their calculation were researched and different combinations of these descriptors were experimentally compared to form a new data set. Accordingly, an algorithm was proposed to reduce text sequences to samples with which topological representations can be compared. Next, a comparison was made of classical machine learning methods for classifying tabular data, including random forest, boosting and logistic regression. In the course of the work, a model was selected with parameters that give the best accuracy and the effect of protein length on the accuracy was studied.

Network User group Action
ILC SPbPU Local Network All
Read Print
Internet Authorized users SPbPU
Read Print
Internet Anonymous

Access count: 2 
Last 30 days: 2

Detailed usage statistics