Details

Title: Разработка метода автоматического выбора оптимального набора признаков в модели геномной селекции: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_01 «Математическое моделирование в науке и индустрии»
Creators: Минеев Александр Юрьевич
Scientific adviser: Козлов Константин Николаевич
Other creators: Арефьева Людмила Анатольевна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт прикладной математики и механики
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: отбор переменных для регрессионной модели; геномная селекция; бинарная разностная эволюция; соя; пшеница; feature selection for regression model; genomic selection; binary differential evolution; soybean; wheat
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 01.04.02
Speciality group (FGOS): 010000 - Математика и механика
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1000
Rights: Доступ по паролю из сети Интернет (чтение, печать)
Record key: ru\spstu\vkr\8223

Allowed Actions:

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Работа посвящена разработке метода отбора подмножества переменных, характеризующих геном растения, для прогнозирования хозяйственно-ценных признаков культурных растений в линейной модели геномной селекции. Создание таких моделей осложняется тем, что число экспериментов много меньше числа переменных. Задачи, которые решались в ходе исследования: 1. Изучение особенности алгоритмов геномной селекции. 2. Разработка модифицированного алгоритма бинарной разностной эволюции для поиска оптимального подмножества переменных в модели геномной селекции. 3. Применение алгоритма к реальным данным сои и пшеницы. Реализованный алгоритм состоит из двух этапов. На первом этапе к данным применяется три фильтрационных метода: критерий Фишера, однофакторный дисперсионный анализ ANOVA и вычисление прироста информации, тем самым формируется множество переменных для алгоритма разностной эволюции. В качестве целевой функции используются модель с несколькими признаками, метод регуляризации Тихонова для лучшей линейной несмещенной оценки (Ridge Regression Best Linear Unbiased Prediction - rrBLUP) или общая Байесовская линейная регрессия (BGLR). Созданный алгоритм при тестировании на различных наборах данных показал свою эффективность и хороший потенциал в задачах поиска оптимального набора переменных.

This work is dedicated to the development of an algorithm for selecting a subset of variables characterizing the plant genome for predicting economically valuable traits of cultivated plants in a linear model of genomic selection. The creation of such models is complicated by the fact that the number of experiments is much less than the number of variables. Tasks that were solved during the study: 1. Studying existing genomic selection algorithms 2. Development of a modified binary difference evolution algorithm for finding the optimal subset of variables in the genomic selection algorithm. 3. Use of the algorithm with real soy and wheat data. The implemented algorithm consists of two stages. At the first stage, to create the feature pool for binary differential evolution, three filter methods are applied to the data: Fisher score, one-way analysis of variance, and the information gain. As a fitness function, a multi-trait model, ridge regression for the best linear unbiased prediction (rrBLUP), or the general Bayesian linear regression (BGLR) are used. A new algorithm during the tests on various data sets has shown its effectiveness and good potential in the tasks for feature set optimization in genomic selection.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print
Internet Authorized users SPbPU Read Print
-> Internet Anonymous

Usage statistics

stat Access count: 4
Last 30 days: 0
Detailed usage statistics