Details

Title Разработка программы выравнивания генома для высокопроизводительных систем: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators Касилов Василий Александрович
Scientific adviser Дробинцев Павел Дмитриевич
Other creators Локшина Екатерина Геннадиевна
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint Санкт-Петербург, 2020
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects сортировка ; алгоритм ; суперкомпьютер ; высокопроизводительные вычисления ; параллелизм ; биоинформатика ; выравнивание генома ; риды ; секвенирование ; sorting algorithm ; supercomputer ; high perfomance computing ; concurency ; bioinformatics ; genome alignment ; reads ; dna sequencing ; ngs
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 09.04.04
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
Links Отзыв руководителя ; Рецензия ; Отчет о проверке на объем и корректность внешних заимствований
DOI 10.18720/SPBPU/3/2020/vr/vr20-1003
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key ru\spstu\vkr\7213
Record create date 7/23/2020

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

Тема выпускной квалификационной работы: «Разработка программы выравнивания генома для высокопроизводительных систем». Данная работа посвящена практическому применению параллельных алгоритмов сортировки и методов параллельного ввода-вывода для задачи выравнивания генома. В работе рассмотрены подходы к реализации таких алгоритмов с учётом возможностей высокопроизводительных систем. Цель работы – разработка программы сортировки генома, эффективность работы которой значительно превышает эффективность свободных программ-аналогов. В ходе работы были рассмотрены специализированные форматы файлов предназначенных для хранения биологических данных и этапы обработки таких файлов. Для одного из форматов предложены и реализованы следующие алгоритмы: • Алгоритм массивного параллельного ввода и вывода данных, • Параллельный алгоритм сортировки на базе сортировочной сети подпоследовательностей. Программа сортировки генома реализована для суперкомпьютера с использованием языка С++ и стандартов OpenMP и OpenMPI. Разработанная программа демонстрирует значительное увеличение скорости работы (до 10 раз) по сравнению со свободными программами-аналогами благодаря массивному параллельному вводу-выводу данных. Рассматриваемые подходы распараллеливания ввода-вывода данных и их обработки могут применяться в других предметных областях.

A main subject of the final qualification work is «Development of a genome alignment program for high-performance systems». This master's thesis covers the practical application of parallel sorting algorithms and parallel input - output methods for the genome alignment problem. A review of existing approaches for implementing such algorithms and methods for high-performance systems is given. The goal of this work is to develop a genome sorting program that is significantly more efficient than free software analogues. In the course of the work, specialized file formats intended for storing biological data and the stages of processing such files were considered. The following algorithms are proposed and implemented for one of the formats: • Massive parallel data input and output algorithm, • Parallel sorting algorithm based on the subsequence sorting network. A genome sorting program for a supercomputer using the C++ language with OpenMP and OpenMPI standards was implemented. The developed program demonstrates a significant performance increase compared to free software analogues (up to 10 times) due to massive parallel data input and output. Described methods of parallelizing data input and output can also be applied in other subject areas.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 22 
Last 30 days: 1

Detailed usage statistics