Details

Title: Анализ влияния генетических факторов на фенотип маша: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_04 «Биоинформатика»
Creators: Костина Надежда Хасановна
Scientific adviser: Козлов Константин Николаевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Imprint: Санкт-Петербург, 2022
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: анализ; влияния; генетические; факторы; фенотип; маш; gwas; vigna; abc; random forest
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 01.03.02
Speciality group (FGOS): 010000 - Математика и механика
DOI: 10.18720/SPBPU/3/2022/vr/vr22-2143
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally: New arrival
Record key: ru\spstu\vkr\18883

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Работа посвящена проведению полногеномного поиска ассоциаций с использованием моделей машинного обучения. Для достижения данной цели используются подходы нахождения важности ОНП по модели, обученной на данных, содержащих описание последовательности ОНП и признака фенотипа для некоторого множества растений. Подбор оптимальных гиперпараметров происходит при помощи метода приближенных байесовских вычислений. В работе представлено три различных подхода для нахождения важности ОНП по заданной модели: ваэжность, как сумма уменьшений загрязнений, значения Шепли и алгоритм Боруты. Также предствалениы подходы учета популяционной структуры данных, заключающиеся в уменьшении размерности, кластеризации и корректировке значений фенотипа с учетом кластеров. В ходе работы была произведена корректировка данных с учетом популяционной структуры, были найдены оптимальные гиперпараметры модели при помощи приближенных байесовских ввычислений, были отсеяны признаки, предположительно имеющие значимое влияние на признак фенотипа с использованием трех раздичных подходов определения важности признаков, проведено сравнение множеств признаков.

The work is devoted to conducting genome-wide association studies using machine learning models. in order to achieve this goal, we use importance scoring based on the pretrained model. Three different approaches had been used In order to provide importance scoring for SNP. Training data consists of a description of the sequence of SNPs and a phenotype trait for a certain set of plants. The selection of optimal hyperparameters occurs using the method of approximate Bayesian calculations. The paper presents three different approaches for finding the importance of SNPs for a given model: importance as the sum of pollution reductions, Shapley values, and Boruta's algorithm. Additionaly population structure should be taken in an account . In order to do this we apply dimension reduction algorithm to our data then make clustering and adjust the phenotype values according to clusters.In this work we corrected the data according to the population structue, found an optimal hyperparameters of the model using approximate bayesian computations, after that we chose importans SNPs using three different methods of importance scoring, then compared those methods.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
External organizations N2 All Read
External organizations N1 All
Internet Authorized users SPbPU Read Print Download
Internet Authorized users (not from SPbPU, N2) Read
Internet Authorized users (not from SPbPU, N1)
-> Internet Anonymous

Table of Contents

  • Введение
  • Постановка задачи.
    • Постановка задачи
    • Существующие методы решения задачи
    • Сложность задачи
  • Использующиеся методы и описание исходных данных
    • Метод приближенных байесовских вычислений
      • Описание
      • Построение алгоритма
    • Деревья решений для решения задачи регрессии
    • Случайный лес
    • Градиентный бустинг
    • Значения Шепли
    • Подсчет матрицы подобия
    • Многомерное шкалирование
    • Описание исходных данных
  • Выбор признаков исходя из значения важности
  • Перебор гиперпараметров с помощью приближенных байесовских вычислений
    • Предобработка датасета и учет популяционной структуры
    • Поиск оптимальной модели
    • ОНП, отобранные на ограниченом датасете без применения байесовского подбора гиперпараметров
    • ОНП, отобранные с применением Байесовского спуска на расширенном датафрейме
  • Заключение
  • Список литературы

Usage statistics

stat Access count: 0
Last 30 days: 0
Detailed usage statistics