Детальная информация

Название: Разработка программы выравнивания генома для высокопроизводительных систем: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_01 «Технология разработки и сопровождения качественного программного продукта»
Авторы: Касилов Василий Александрович
Научный руководитель: Дробинцев Павел Дмитриевич
Другие авторы: Локшина Екатерина Геннадиевна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: сортировка; алгоритм; суперкомпьютер; высокопроизводительные вычисления; параллелизм; биоинформатика; выравнивание генома; риды; секвенирование; sorting algorithm; supercomputer; high perfomance computing; concurency; bioinformatics; genome alignment; reads; dna sequencing; ngs
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1003
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\7213

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тема выпускной квалификационной работы: «Разработка программы выравнивания генома для высокопроизводительных систем». Данная работа посвящена практическому применению параллельных алгоритмов сортировки и методов параллельного ввода-вывода для задачи выравнивания генома. В работе рассмотрены подходы к реализации таких алгоритмов с учётом возможностей высокопроизводительных систем. Цель работы – разработка программы сортировки генома, эффективность работы которой значительно превышает эффективность свободных программ-аналогов. В ходе работы были рассмотрены специализированные форматы файлов предназначенных для хранения биологических данных и этапы обработки таких файлов. Для одного из форматов предложены и реализованы следующие алгоритмы: • Алгоритм массивного параллельного ввода и вывода данных, • Параллельный алгоритм сортировки на базе сортировочной сети подпоследовательностей. Программа сортировки генома реализована для суперкомпьютера с использованием языка С++ и стандартов OpenMP и OpenMPI. Разработанная программа демонстрирует значительное увеличение скорости работы (до 10 раз) по сравнению со свободными программами-аналогами благодаря массивному параллельному вводу-выводу данных. Рассматриваемые подходы распараллеливания ввода-вывода данных и их обработки могут применяться в других предметных областях.

A main subject of the final qualification work is «Development of a genome alignment program for high-performance systems». This master's thesis covers the practical application of parallel sorting algorithms and parallel input - output methods for the genome alignment problem. A review of existing approaches for implementing such algorithms and methods for high-performance systems is given. The goal of this work is to develop a genome sorting program that is significantly more efficient than free software analogues. In the course of the work, specialized file formats intended for storing biological data and the stages of processing such files were considered. The following algorithms are proposed and implemented for one of the formats: • Massive parallel data input and output algorithm, • Parallel sorting algorithm based on the subsequence sorting network. A genome sorting program for a supercomputer using the C++ language with OpenMP and OpenMPI standards was implemented. The developed program demonstrates a significant performance increase compared to free software analogues (up to 10 times) due to massive parallel data input and output. Described methods of parallelizing data input and output can also be applied in other subject areas.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 14
За последние 30 дней: 0
Подробная статистика