Анализ биоразнообразия подлёдных озёр по данным нанопорового секвенирования: выпускная квалификационная работа бакалавра: направление 03.03.02 «Физика» ; образовательная программа 03.03.02_02 «Биохимическая физика»

Цветкова, Анна Юрьевна

Details

	Table	Card	RUSMARC

Title:	Анализ биоразнообразия подлёдных озёр по данным нанопорового секвенирования: выпускная квалификационная работа бакалавра: направление 03.03.02 «Физика» ; образовательная программа 03.03.02_02 «Биохимическая физика»
Creators:	Цветкова Анна Юрьевна
Scientific adviser:	Швецов Алексей Валерьевич
Organization:	Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Imprint:	Санкт-Петербург, 2024
Collection:	Выпускные квалификационные работы; Общая коллекция
Subjects:	нанопоровое секвенирование; расстояние Левенштейна; алгоритм Левенштейна; поиск баркодов; поиск праймеров; озеро Восток; секвенирование третьего поколения; ошибки прочтения; nanopore sequencing; Levenshtein distance; Levenshtein algorithm; barcodes search; primers search; lake Vostok; third generation sequencing; reading mistakes.
Document type:	Bachelor graduation qualification work
File type:	PDF
Language:	Russian
Level of education:	Bachelor
Speciality code (FGOS):	03.03.02
Speciality group (FGOS):	030000 - Физика и астрономия
DOI:	10.18720/SPBPU/3/2024/vr/vr24-4702
Rights:	Доступ по паролю из сети Интернет (чтение, печать)
Additionally:	New arrival
Record key:	ru\spstu\vkr\29868

Allowed Actions: –

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Данная работа посвящена разработке метода анализа данных нанопорового секвенирования для подготовки нуклеотидных последовательностей к дальнейшей классификации по геномным базам данных. Необходимо удалить вспомогательные продукты секвенирования: адаптеры, баркоды, праймеры, которые затрудняют последующую классификацию последовательностей. Из-за ошибок секвенирования вспомогательные последовательности могут либо вообще не прочитаться, либо прочитаться неточно, с некоторым количеством ошибок. Количество ошибок задает пользователь, но оно не должно превышать высчитанную максимальную допустимую ошибку. Заданная ошибка прочтения определяет точность поиска. В качестве основы был выбран алгоритм поиска расстояний Левенштейна. Он находит минимальное количество односимвольных операций, необходимое для превращения одной последовательности в другую. При помощи алгоритма Левенштейна осуществлялся поиск баркодов, праймеров, а также расчет максимальных допустимых ошибок. К анализируемым образцам пришивался только баркод №6 с двух сторон. Разработанное программное обеспечение находит баркод №6 у 99% последовательностей, из которых у 81% найдено оба баркода: forward и reverse. Поиск праймеров осуществляется только среди последовательностей с двумя баркодами. У них праймеры были найдены в 46% случаев. У последовательностей с баркодом №6 праймеры были найдены у 46%, из которых у 25% были обнаружены два праймера. В отличие от коммерческих программ для обработки данных нанопорового секвенирования разработанное программное обеспечение обладает открытым кодом, позволяет осуществлять поиск баркодов и проводить по ним сортировку данных, обнаруживать праймеры с известной ошибкой и проводить обрезание последовательностей (по найденным праймерам). Результатом выполнения программы является набор обрезанных последовательностей, готовых к дальнейшей классификации по геномным базам данных.

The given work is devoted to the development of a method for analyzing nanopore sequencing data to prepare nucleotide sequences for subsequent classification by genomic databases. It is necessary to remove additional products of sequencing: adapters, barcodes, primers, which complicate the subsequent classification of sequences. Due to sequencing errors, additional sequences may either not be read at all or may be read inaccurately, with a certain number of errors. The number of errors is set by the user, but it should not be greater than the calculated maximum allowable error. The specified reading error determines the accuracy of the search. The Levenshtein distance search algorithm was chosen as the basis. It finds the minimum number of single-character operations required to transform one sequence into another. The Levenshtein algorithm was used to search for barcodes, primers, and to calculate the maximum allowable errors. Only barcode №6 on both sides was added to the analyzed samples. The developed software finds barkode №6 in 99% of sequences, of which 81% have both barkodes: forward and reverse. The primers are searched only among sequences with both barkodes. In these sequences primers were found in 46% of cases. In sequences with barkode №6, primers were found in 46%, of which 25% had both primers. Unlike commercial programs for processing nanopore sequencing data, the developed software is open source, allows searching for barcodes and sorting data by them, detects primers with a known error, and trims sequences (based on the found primers). The result of the program execution is a set of trimmed sequences ready for further classification by genomic databases.

Document access rights

	Network		User group		Action
	ILC SPbPU Local Network		All
	Internet		Authorized users SPbPU
	Internet		Anonymous

Содержание
Введение
глава 1. ОБЗОР ЛИТЕРАТУРЫ
1.1. История секвенирования. Предпосылки к появлению третьего поколения секвенирования
1.2. Первые исследования нанопорового секвенирования
1.3. Компоненты системы нанопор
1.3.1. Нанопоры: строение, виды
1.3.2. Моторные белки
1.4. Процесс секвенирования
1.4.1. Виды нанопорового секвенирования
1.4.2. Подготовка библиотек
1.4.3. Процесс нанопорового секвенирования
1.4.4. Представление результатов
1.5. Обработка данных
1.5.1. Бейсколлинг
1.5.2. Выравнивание последовательностей
1.6. Применение нанопрового секвенирования на примере исследования озера Восток
глава 2. МАТЕРИАЛЫ И МЕТОДЫ
2.1. Предоставленные данные
2.2. Постановка задачи, выбор реализации
/
2.2.1. Блок-схема программы
2.2.2. Инструменты
2.2.3. Выбор алгоритма
2.3. Осуществление поиска баркодов
2.3.1. Особенности баркодов
2.3.2. Ошибка прочтения баркодов
2.3.3. Реализация алгоритма
2.4. Поиск праймеров
2.4.1. Особенности праймеров.
2.4.2. Праймеры. Ошибка прочтения.
2.4.3. Реализация алгоритма
2.4.4. Обрезка праймеров
Глава 3. результаты
3.1. Результат сортировки по баркодам
3.2. Результат поиска праймеров
3.3. Идентификация по геномным базам данных
Заключение
ВЫВОДЫ
Список ЛИТЕРАТУРЫ
приложение 1

Usage statistics

Access count: 0
Last 30 days: 0
Detailed usage statistics

Details

Annotation

Document access rights

Table of Contents

Usage statistics