Разработка метода автоматического выбора оптимального набора признаков в модели геномной селекции: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_01 «Математическое моделирование в науке и индустрии»

Минеев, Александр Юрьевич

Details

Title	Разработка метода автоматического выбора оптимального набора признаков в модели геномной селекции: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_01 «Математическое моделирование в науке и индустрии»
Creators	Минеев Александр Юрьевич
Scientific adviser	Козлов Константин Николаевич
Other creators	Арефьева Людмила Анатольевна
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт прикладной математики и механики
Imprint	Санкт-Петербург, 2020
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	отбор переменных для регрессионной модели ; геномная селекция ; бинарная разностная эволюция ; соя ; пшеница ; feature selection for regression model ; genomic selection ; binary differential evolution ; soybean ; wheat
Document type	Master graduation qualification work
Language	Russian
Level of education	Master
Speciality code (FGOS)	01.04.02
Speciality group (FGOS)	010000 - Математика и механика
Links	Отзыв руководителя ; Рецензия ; Отчет о проверке на объем и корректность внешних заимствований
DOI	10.18720/SPBPU/3/2020/vr/vr20-1000
Rights	Доступ по паролю из сети Интернет (чтение, печать)
Record key	ru\spstu\vkr\8223
Record create date	7/31/2020

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Работа посвящена разработке метода отбора подмножества переменных, характеризующих геном растения, для прогнозирования хозяйственно-ценных признаков культурных растений в линейной модели геномной селекции. Создание таких моделей осложняется тем, что число экспериментов много меньше числа переменных. Задачи, которые решались в ходе исследования: 1. Изучение особенности алгоритмов геномной селекции. 2. Разработка модифицированного алгоритма бинарной разностной эволюции для поиска оптимального подмножества переменных в модели геномной селекции. 3. Применение алгоритма к реальным данным сои и пшеницы. Реализованный алгоритм состоит из двух этапов. На первом этапе к данным применяется три фильтрационных метода: критерий Фишера, однофакторный дисперсионный анализ ANOVA и вычисление прироста информации, тем самым формируется множество переменных для алгоритма разностной эволюции. В качестве целевой функции используются модель с несколькими признаками, метод регуляризации Тихонова для лучшей линейной несмещенной оценки (Ridge Regression Best Linear Unbiased Prediction - rrBLUP) или общая Байесовская линейная регрессия (BGLR). Созданный алгоритм при тестировании на различных наборах данных показал свою эффективность и хороший потенциал в задачах поиска оптимального набора переменных.

This work is dedicated to the development of an algorithm for selecting a subset of variables characterizing the plant genome for predicting economically valuable traits of cultivated plants in a linear model of genomic selection. The creation of such models is complicated by the fact that the number of experiments is much less than the number of variables. Tasks that were solved during the study: 1. Studying existing genomic selection algorithms 2. Development of a modified binary difference evolution algorithm for finding the optimal subset of variables in the genomic selection algorithm. 3. Use of the algorithm with real soy and wheat data. The implemented algorithm consists of two stages. At the first stage, to create the feature pool for binary differential evolution, three filter methods are applied to the data: Fisher score, one-way analysis of variance, and the information gain. As a fitness function, a multi-trait model, ridge regression for the best linear unbiased prediction (rrBLUP), or the general Bayesian linear regression (BGLR) are used. A new algorithm during the tests on various data sets has shown its effectiveness and good potential in the tasks for feature set optimization in genomic selection.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 6
Last 30 days: 0

Detailed usage statistics