Анализ влияния генетических факторов на фенотип маша: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_04 «Биоинформатика» = Impact analysis of genetic factors on mung bean phenotype

Костина, Надежда Хасановна

Details

Title	Анализ влияния генетических факторов на фенотип маша: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_04 «Биоинформатика» = Impact analysis of genetic factors on mung bean phenotype
Creators	Костина Надежда Хасановна
Scientific adviser	Козлов Константин Николаевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Imprint	Санкт-Петербург, 2022
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	анализ ; влияния ; генетические ; факторы ; фенотип ; маш ; gwas ; vigna ; abc ; random forest
Document type	Bachelor graduation qualification work
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	01.03.02
Speciality group (FGOS)	010000 - Математика и механика
DOI	10.18720/SPBPU/3/2022/vr/vr22-2143
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key	ru\spstu\vkr\18883
Record create date	12/19/2022

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Работа посвящена проведению полногеномного поиска ассоциаций с использованием моделей машинного обучения. Для достижения данной цели используются подходы нахождения важности ОНП по модели, обученной на данных, содержащих описание последовательности ОНП и признака фенотипа для некоторого множества растений. Подбор оптимальных гиперпараметров происходит при помощи метода приближенных байесовских вычислений. В работе представлено три различных подхода для нахождения важности ОНП по заданной модели: ваэжность, как сумма уменьшений загрязнений, значения Шепли и алгоритм Боруты. Также предствалениы подходы учета популяционной структуры данных, заключающиеся в уменьшении размерности, кластеризации и корректировке значений фенотипа с учетом кластеров. В ходе работы была произведена корректировка данных с учетом популяционной структуры, были найдены оптимальные гиперпараметры модели при помощи приближенных байесовских ввычислений, были отсеяны признаки, предположительно имеющие значимое влияние на признак фенотипа с использованием трех раздичных подходов определения важности признаков, проведено сравнение множеств признаков.

The work is devoted to conducting genome-wide association studies using machine learning models. in order to achieve this goal, we use importance scoring based on the pretrained model. Three different approaches had been used In order to provide importance scoring for SNP. Training data consists of a description of the sequence of SNPs and a phenotype trait for a certain set of plants. The selection of optimal hyperparameters occurs using the method of approximate Bayesian calculations. The paper presents three different approaches for finding the importance of SNPs for a given model: importance as the sum of pollution reductions, Shapley values, and Boruta's algorithm. Additionaly population structure should be taken in an account . In order to do this we apply dimension reduction algorithm to our data then make clustering and adjust the phenotype values according to clusters.In this work we corrected the data according to the population structue, found an optimal hyperparameters of the model using approximate bayesian computations, after that we chose importans SNPs using three different methods of importance scoring, then compared those methods.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Введение
Постановка задачи.
- Постановка задачи
- Существующие методы решения задачи
- Сложность задачи
Использующиеся методы и описание исходных данных
- Метод приближенных байесовских вычислений
  - Описание
  - Построение алгоритма
- Деревья решений для решения задачи регрессии
- Случайный лес
- Градиентный бустинг
- Значения Шепли
- Подсчет матрицы подобия
- Многомерное шкалирование
- Описание исходных данных
Выбор признаков исходя из значения важности
Перебор гиперпараметров с помощью приближенных байесовских вычислений
- Предобработка датасета и учет популяционной структуры
- Поиск оптимальной модели
- ОНП, отобранные на ограниченом датасете без применения байесовского подбора гиперпараметров
- ОНП, отобранные с применением Байесовского спуска на расширенном датафрейме
Заключение
Список литературы

Access count: 20
Last 30 days: 0

Detailed usage statistics