Разработка алгоритма и приложения для построения филогенетических деревьев по большим объемам данных: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»

Чусов, Роман Дмитриевич

Details

	Table	Card	RUSMARC

Title:	Разработка алгоритма и приложения для построения филогенетических деревьев по большим объемам данных: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Creators:	Чусов Роман Дмитриевич
Scientific adviser:	Воинов Никита Владимирович
Other creators:	Локшина Екатерина Геннадиевна
Organization:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint:	Санкт-Петербург, 2020
Collection:	Выпускные квалификационные работы; Общая коллекция
Subjects:	филогенетика; большие данные; дерево эволюции; облачные вычисления; кластерные вычисления; метод присоединения ближайших соседей; big data; phylogeny evolution tree; cloud computing; cluster computing; neighbor joining
Document type:	Master graduation qualification work
File type:	PDF
Language:	Russian
Level of education:	Master
Speciality code (FGOS):	09.04.04
Speciality group (FGOS):	090000 - Информатика и вычислительная техника
Links:	Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI:	10.18720/SPBPU/3/2020/vr/vr20-3877
Rights:	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key:	ru\spstu\vkr\6900

Allowed Actions: –

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Тема представленной работы - разработка алгоритма и приложения для построения филогенетических деревьев по большим объемам данных. Филогенетика – это наука об эволюционных взаимоотношениях живых организмов. В данной работе рассматривается проблема построения филогенетического дерева для случаев, когда требуется обработать большой объем входных данных. В работе приводится описание уже существующих инструментов и алгоритмов, лежащих в их основе, а также их сравнение между собой. Модифицирован один из базовых алгоритмов, для запуска алгоритма на кластере Apache Spark. Реализован веб-интерфейс для взаимодействия с приложением, в том числе проведения базового анализа полученных результатов – фильтрация и подсвечивание поддеревьев. Также приложение развернуто при помощи открытого инструмента оркестрации распределенных приложений – Kubernetes, что позволяет работать с приложением как локально, так и в рамках облака. При помощи данного инструмента, а также ряда уже существующих был проведен анализ над различными исходными данными, получены результаты сравнения производительности инструментов. Преимущество разработанного инструмента, заключатся в том, что (1) приложение поддерживает горизонтальное масштабирование и (2) обладает графически интерфейсом.

The main goal of this work is to implement Algorithm and application for Computing Evolution Trees from large datasets. Phylogeny is the study of the evolutionary history and relationships among individuals or groups of organisms. Phylogeny attempts to trace the evolutionary history of all life on the planet. The relationships among organisms are depicted in what is known as a phylogenetic tree. Automatization of the method of building phylogenetic trees allows to build evolution trees on regular basis. The paper provides description of algorithms behind the building phylogenetic trees. Additionally, the paper reviews existing tools for building evolution trees: FastTree, because it is fast, accurate and popular instrument and MEGA, because it provides user interface. One of the base methods is modified during the work using Apache Spark and Python for supporting parallel cluster computing, implemented UI-interface of the application, which returns tree Newick-formatted tree and provides basic functionality for working with trees. Finally, created Spark Cluster using open source orchestration tool Kubernetes. The web-application can be hosted locally or using cloud providers. The advantages of the implemented approach are that (1) the application can be easily deployed on a cluster and scaled horizontally and (2) it provides user-friendly interface.

Document access rights

	Network		User group		Action
	ILC SPbPU Local Network		All
	Internet		Authorized users SPbPU
	Internet		Anonymous

Usage statistics

Access count: 9
Last 30 days: 0
Detailed usage statistics