Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Работа посвящена проведению полногеномного поиска ассоциаций с использованием моделей машинного обучения. Для достижения данной цели используются подходы нахождения важности ОНП по модели, обученной на данных, содержащих описание последовательности ОНП и признака фенотипа для некоторого множества растений. Подбор оптимальных гиперпараметров происходит при помощи метода приближенных байесовских вычислений. В работе представлено три различных подхода для нахождения важности ОНП по заданной модели: ваэжность, как сумма уменьшений загрязнений, значения Шепли и алгоритм Боруты. Также предствалениы подходы учета популяционной структуры данных, заключающиеся в уменьшении размерности, кластеризации и корректировке значений фенотипа с учетом кластеров. В ходе работы была произведена корректировка данных с учетом популяционной структуры, были найдены оптимальные гиперпараметры модели при помощи приближенных байесовских ввычислений, были отсеяны признаки, предположительно имеющие значимое влияние на признак фенотипа с использованием трех раздичных подходов определения важности признаков, проведено сравнение множеств признаков.
The work is devoted to conducting genome-wide association studies using machine learning models. in order to achieve this goal, we use importance scoring based on the pretrained model. Three different approaches had been used In order to provide importance scoring for SNP. Training data consists of a description of the sequence of SNPs and a phenotype trait for a certain set of plants. The selection of optimal hyperparameters occurs using the method of approximate Bayesian calculations. The paper presents three different approaches for finding the importance of SNPs for a given model: importance as the sum of pollution reductions, Shapley values, and Boruta's algorithm. Additionaly population structure should be taken in an account . In order to do this we apply dimension reduction algorithm to our data then make clustering and adjust the phenotype values according to clusters.In this work we corrected the data according to the population structue, found an optimal hyperparameters of the model using approximate bayesian computations, after that we chose importans SNPs using three different methods of importance scoring, then compared those methods.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Table of Contents
- Введение
- Постановка задачи.
- Постановка задачи
- Существующие методы решения задачи
- Сложность задачи
- Использующиеся методы и описание исходных данных
- Метод приближенных байесовских вычислений
- Описание
- Построение алгоритма
- Деревья решений для решения задачи регрессии
- Случайный лес
- Градиентный бустинг
- Значения Шепли
- Подсчет матрицы подобия
- Многомерное шкалирование
- Описание исходных данных
- Метод приближенных байесовских вычислений
- Выбор признаков исходя из значения важности
- Перебор гиперпараметров с помощью приближенных байесовских вычислений
- Предобработка датасета и учет популяционной структуры
- Поиск оптимальной модели
- ОНП, отобранные на ограниченом датасете без применения байесовского подбора гиперпараметров
- ОНП, отобранные с применением Байесовского спуска на расширенном датафрейме
- Заключение
- Список литературы
Usage statistics
Access count: 20
Last 30 days: 0 Detailed usage statistics |