Детальная информация

Название: Анализ влияния генетических факторов на фенотип маша: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_04 «Биоинформатика»
Авторы: Костина Надежда Хасановна
Научный руководитель: Козлов Константин Николаевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Выходные сведения: Санкт-Петербург, 2022
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: анализ; влияния; генетические; факторы; фенотип; маш; gwas; vigna; abc; random forest
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 01.03.02
Группа специальностей ФГОС: 010000 - Математика и механика
DOI: 10.18720/SPBPU/3/2022/vr/vr22-2143
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно: Новинка
Ключ записи: ru\spstu\vkr\18883

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Работа посвящена проведению полногеномного поиска ассоциаций с использованием моделей машинного обучения. Для достижения данной цели используются подходы нахождения важности ОНП по модели, обученной на данных, содержащих описание последовательности ОНП и признака фенотипа для некоторого множества растений. Подбор оптимальных гиперпараметров происходит при помощи метода приближенных байесовских вычислений. В работе представлено три различных подхода для нахождения важности ОНП по заданной модели: ваэжность, как сумма уменьшений загрязнений, значения Шепли и алгоритм Боруты. Также предствалениы подходы учета популяционной структуры данных, заключающиеся в уменьшении размерности, кластеризации и корректировке значений фенотипа с учетом кластеров. В ходе работы была произведена корректировка данных с учетом популяционной структуры, были найдены оптимальные гиперпараметры модели при помощи приближенных байесовских ввычислений, были отсеяны признаки, предположительно имеющие значимое влияние на признак фенотипа с использованием трех раздичных подходов определения важности признаков, проведено сравнение множеств признаков.

The work is devoted to conducting genome-wide association studies using machine learning models. in order to achieve this goal, we use importance scoring based on the pretrained model. Three different approaches had been used In order to provide importance scoring for SNP. Training data consists of a description of the sequence of SNPs and a phenotype trait for a certain set of plants. The selection of optimal hyperparameters occurs using the method of approximate Bayesian calculations. The paper presents three different approaches for finding the importance of SNPs for a given model: importance as the sum of pollution reductions, Shapley values, and Boruta's algorithm. Additionaly population structure should be taken in an account . In order to do this we apply dimension reduction algorithm to our data then make clustering and adjust the phenotype values according to clusters.In this work we corrected the data according to the population structue, found an optimal hyperparameters of the model using approximate bayesian computations, after that we chose importans SNPs using three different methods of importance scoring, then compared those methods.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Внешние организации №2 Все Прочитать
Внешние организации №1 Все
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
Интернет Авторизованные пользователи (не СПбПУ, №2) Прочитать
Интернет Авторизованные пользователи (не СПбПУ, №1)
-> Интернет Анонимные пользователи

Оглавление

  • Введение
  • Постановка задачи.
    • Постановка задачи
    • Существующие методы решения задачи
    • Сложность задачи
  • Использующиеся методы и описание исходных данных
    • Метод приближенных байесовских вычислений
      • Описание
      • Построение алгоритма
    • Деревья решений для решения задачи регрессии
    • Случайный лес
    • Градиентный бустинг
    • Значения Шепли
    • Подсчет матрицы подобия
    • Многомерное шкалирование
    • Описание исходных данных
  • Выбор признаков исходя из значения важности
  • Перебор гиперпараметров с помощью приближенных байесовских вычислений
    • Предобработка датасета и учет популяционной структуры
    • Поиск оптимальной модели
    • ОНП, отобранные на ограниченом датасете без применения байесовского подбора гиперпараметров
    • ОНП, отобранные с применением Байесовского спуска на расширенном датафрейме
  • Заключение
  • Список литературы

Статистика использования

stat Количество обращений: 0
За последние 30 дней: 0
Подробная статистика