Таблица | Карточка | RUSMARC | |
Разрешенные действия: –
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа: Анонимные пользователи Сеть: Интернет |
Аннотация
Picard Tools – набор утилит командной строки для работы с файлами геномных последовательностей. Он предоставляет инструменты для их обработки, анализа и вывода его результатов в виде различных метрик. CollectWGSMetrics используется для оценки результатов ранее произведенной обработки данных – процента ранее выровненных на геном ридов, прошедших базовые фильтры качества. Таким образом она позволяет контролировать качество других экспериментов. В данной работе описан процесс поиска путей повышения производительности вычисления этой метрики и разработки применимых для этого алгоритмов. Приведено время работы программы с использованием различных подходов к решению задачи, проанализированы данные, полученные из логов и профилировщиков. В ходе неё рассмотрен вопрос использования распределенных и многопоточных вычислений для более эффективного использования ресурсов вычислительной системы. Работа велась на языке Java с использованием стандартной библиотеки и библиотеки htsjdk. По итогам работы расширен функционал существующего инструмента и предложены пути для его дальнейшего усовершенствования.
Picard Tools is a set of command line utilities for working with genomic sequence files. It provides tools for their processing, analysis and output of its results in the form of various metrics. CollectWGSMetrics is used to evaluate the results of previously performed data processing - the percentage of reads previously aligned to the genome that passed the basic quality filters. Thus, it allows you to control the quality of other experiments. This paper describes the process of finding ways to improve the performance of computing this metric and developing applicable algorithms for this. The operating time of the program using various approaches to solving the problem is given, data obtained from logs and profilers are analyzed. During it, the question of using distributed and multi-threaded computing for more efficient use of computer system resources was considered. The work was conducted in the Java language using the standard library and the htsjdk library. Based on the results of the work, the functionality of the existing tool was expanded and ways for its further improvement were proposed.
Права на использование объекта хранения
Место доступа | Группа пользователей | Действие | ||||
---|---|---|---|---|---|---|
Локальная сеть ИБК СПбПУ | Все | |||||
Интернет | Авторизованные пользователи СПбПУ | |||||
Интернет | Анонимные пользователи |
Оглавление
- 172423e623f6a2e23ad12f368471af890fc215a3196fe39866db1b5e294a2178.pdf
- d519af6d9a53807af477459c61acb9b52dda41ef4e65e106e6d49664cfc29200.pdf
- 570ebdb4a086fbf8684d80e7458927769d11451b46c7ce1311f97293e2407d48.pdf
- d9d88b5f3070b109ee4865812e25ec6c8daf6fa825dcca8354658caf8fcbe08c.pdf
- 1b599e674403bdc71878efc382d78064741926da6e2f437ba17a0cf51d44648b.pdf
- f1d7603b2de20c38fb3639e410bd41a0f56351757dcd554ced9be56701224ec1.pdf
- 172423e623f6a2e23ad12f368471af890fc215a3196fe39866db1b5e294a2178.pdf
- d519af6d9a53807af477459c61acb9b52dda41ef4e65e106e6d49664cfc29200.pdf
- Определения
- Обозначения и сокращения
- Введение
- 1. ОБЗОР ЛИТЕРАТУРЫ
- 1.1. Исследование предметной области
- 1.1.1. Сборка ДНК
- 1.1.1. Сборка генома как вычислительная задача и пути её решения.
- 1.2. Обзор предыдущей попытки оптимизации алгоритма
- 1.2.1. Описание алгоритма
- 1.2.2. Исследование последовательной версии
- 1.2.3. Параллелизация
- 1.2.4. Исследование параллельной версии
- 1.2.5. Подбор оптимальных параметров запуска JVM
- 1.2.6. Подбор оптимального количества ридов в пачке, пула и изучение влияния Zulu и Zing
- 1.3. Постановка задачи
- 1.1. Исследование предметной области
- 2. Теоретическая часть. Обзор архитектурных решений
- 2.1. Многопоточная архитектура
- 2.1.1. Релевантность многопоточных вычислений задаче
- 2.1.2. Распределенные вычисления
- 2.1.3. Анализ возможностей для разделения и независимого анализа частей исходных файлов
- 2.1. Многопоточная архитектура
- 3. Практическая часть.
- 3.1. Исследование возможностей усовершенствования параллельного вычисления
- 3.2. Тестирование разных реализаций концепции многопоточности и режимов работы сборщика мусора.
- 3.3. Поиск вариантов для одновременной обработки нескольких частей файла.
- 3.4. Реализация и тестирование приложения для распределенного вычисления с архитектурой клиент – сервер.
- ЗАКЛЮЧЕНИЕ
- Библиографический список
- d519af6d9a53807af477459c61acb9b52dda41ef4e65e106e6d49664cfc29200.pdf
Статистика использования
Количество обращений: 5
За последние 30 дней: 0 Подробная статистика |