Детальная информация

Название: Разработка алгоритма и приложения для построения филогенетических деревьев по большим объемам данных: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Авторы: Чусов Роман Дмитриевич
Научный руководитель: Воинов Никита Владимирович
Другие авторы: Локшина Екатерина Геннадиевна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: филогенетика; большие данные; дерево эволюции; облачные вычисления; кластерные вычисления; метод присоединения ближайших соседей; big data; phylogeny evolution tree; cloud computing; cluster computing; neighbor joining
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-3877
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\6900

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тема представленной работы - разработка алгоритма и приложения для построения филогенетических деревьев по большим объемам данных. Филогенетика – это наука об эволюционных взаимоотношениях живых организмов. В данной работе рассматривается проблема построения филогенетического дерева для случаев, когда требуется обработать большой объем входных данных. В работе приводится описание уже существующих инструментов и алгоритмов, лежащих в их основе, а также их сравнение между собой. Модифицирован один из базовых алгоритмов, для запуска алгоритма на кластере Apache Spark. Реализован веб-интерфейс для взаимодействия с приложением, в том числе проведения базового анализа полученных результатов – фильтрация и подсвечивание поддеревьев. Также приложение развернуто при помощи открытого инструмента оркестрации распределенных приложений – Kubernetes, что позволяет работать с приложением как локально, так и в рамках облака. При помощи данного инструмента, а также ряда уже существующих был проведен анализ над различными исходными данными, получены результаты сравнения производительности инструментов. Преимущество разработанного инструмента, заключатся в том, что (1) приложение поддерживает горизонтальное масштабирование и (2) обладает графически интерфейсом.

The main goal of this work is to implement Algorithm and application for Computing Evolution Trees from large datasets. Phylogeny is the study of the evolutionary history and relationships among individuals or groups of organisms. Phylogeny attempts to trace the evolutionary history of all life on the planet. The relationships among organisms are depicted in what is known as a phylogenetic tree. Automatization of the method of building phylogenetic trees allows to build evolution trees on regular basis. The paper provides description of algorithms behind the building phylogenetic trees. Additionally, the paper reviews existing tools for building evolution trees: FastTree, because it is fast, accurate and popular instrument and MEGA, because it provides user interface. One of the base methods is modified during the work using Apache Spark and Python for supporting parallel cluster computing, implemented UI-interface of the application, which returns tree Newick-formatted tree and provides basic functionality for working with trees. Finally, created Spark Cluster using open source orchestration tool Kubernetes. The web-application can be hosted locally or using cloud providers. The advantages of the implemented approach are that (1) the application can be easily deployed on a cluster and scaled horizontally and (2) it provides user-friendly interface.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 9
За последние 30 дней: 0
Подробная статистика