Детальная информация

Название Разработка модели классификации белков на основе методов топологического анализа данных: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»
Авторы Линде Даниил Викторович
Научный руководитель Уткин Лев Владимирович
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения Санкт-Петербург, 2024
Коллекция Выпускные квалификационные работы; Общая коллекция
Тематика топологический анализ данных; персистентная гомология; структура белка; классификация текста; topological data analysis; persistent homology; protein structure; text classification
Тип документа Выпускная квалификационная работа магистра
Тип файла PDF
Язык Русский
Уровень высшего образования Магистратура
Код специальности ФГОС 02.04.01
Группа специальностей ФГОС 020000 - Компьютерные и информационные науки
DOI 10.18720/SPBPU/3/2024/vr/vr24-5045
Права доступа Доступ по паролю из сети Интернет (чтение, печать)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\33214
Дата создания записи 29.08.2024

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Тема выпускной квалификационной работы: «Разработка модели классификации белков на основе методов топологического анализа данных». Данная работа для решения задачи классификации белка по буквенным последовательностям, описывающим его первичную и вторичную структуры, для определения у него наличия или отсутствия искомого свойства. Для этого были были изучены имеющиеся методы решения классификации текстовых последовательностей и обнаружена проблема несбалансированности классов. Для решения данной проблемы были исследованы методы топологического анализа данных для создания нового набора данных,    состоящего  из топологических дескрипторов вместо текста.  Для этого были приведены алгоритмы их построения и экспериментально исследованы разные комбинации этих дескрипторов для формирования нового набора данных. Соответственно был предложен алгоритм для сведения текстовых последовательностей к выборакам, с которыми можно сопоставить топологические представления. Далее было выполнено  сравнение классических методов классификации табличных данных, включая случайный лес, бустинг  и логистическую регрессию. В ходе работы была подобрана модель с  параметрами, дающими наилучшую точностей для решаемой задачи, и исследовано влияние длины белка на  точность решения задачи.

This paper is about solution the problem of classifying a protein by letter sequences describing its primary and secondary structures, to determine whether it has the desired property or not. To do this, the available methods for solving the classification of text sequences were studied and the problem of class imbalance was discovered. To solve this problem, methods of topological data analysis were investigated to create a new dataset consisting of topological descriptors instead of text.  To do this, algorithms for their calculation were researched and different combinations of these descriptors were experimentally compared to form a new data set. Accordingly, an algorithm was proposed to reduce text sequences to samples with which topological representations can be compared. Next, a comparison was made of classical machine learning methods for classifying tabular data, including random forest, boosting and logistic regression. In the course of the work, a model was selected with parameters that give the best accuracy and the effect of protein length on the accuracy was studied.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать
Интернет Авторизованные пользователи СПбПУ
Прочитать Печать
Интернет Анонимные пользователи

Количество обращений: 2 
За последние 30 дней: 2

Подробная статистика