Детальная информация

Название: Анализ биоразнообразия подлёдных озёр по данным нанопорового секвенирования: выпускная квалификационная работа бакалавра: направление 03.03.02 «Физика» ; образовательная программа 03.03.02_02 «Биохимическая физика»
Авторы: Цветкова Анна Юрьевна
Научный руководитель: Швецов Алексей Валерьевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Выходные сведения: Санкт-Петербург, 2024
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: нанопоровое секвенирование; расстояние Левенштейна; алгоритм Левенштейна; поиск баркодов; поиск праймеров; озеро Восток; секвенирование третьего поколения; ошибки прочтения; nanopore sequencing; Levenshtein distance; Levenshtein algorithm; barcodes search; primers search; lake Vostok; third generation sequencing; reading mistakes.
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 03.03.02
Группа специальностей ФГОС: 030000 - Физика и астрономия
DOI: 10.18720/SPBPU/3/2024/vr/vr24-4702
Права доступа: Доступ по паролю из сети Интернет (чтение, печать)
Дополнительно: Новинка
Ключ записи: ru\spstu\vkr\29868

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Данная работа посвящена разработке метода анализа данных нанопорового секвенирования для подготовки нуклеотидных последовательностей к дальнейшей классификации по геномным базам данных. Необходимо удалить вспомогательные продукты секвенирования: адаптеры, баркоды, праймеры, которые затрудняют последующую классификацию последовательностей. Из-за ошибок секвенирования вспомогательные последовательности могут либо вообще не прочитаться, либо прочитаться неточно, с некоторым количеством ошибок. Количество ошибок задает пользователь, но оно не должно превышать высчитанную максимальную допустимую ошибку. Заданная ошибка прочтения определяет точность поиска. В качестве основы был выбран алгоритм поиска расстояний Левенштейна. Он находит минимальное количество односимвольных операций, необходимое для превращения одной последовательности в другую. При помощи алгоритма Левенштейна осуществлялся поиск баркодов, праймеров, а также расчет максимальных допустимых ошибок. К анализируемым образцам пришивался только баркод №6 с двух сторон. Разработанное программное обеспечение находит баркод №6 у 99% последовательностей, из которых у 81% найдено оба баркода: forward и reverse. Поиск праймеров осуществляется только среди последовательностей с двумя баркодами. У них праймеры были найдены в 46% случаев. У последовательностей с баркодом №6 праймеры были найдены у 46%, из которых у 25% были обнаружены два праймера. В отличие от коммерческих программ для обработки данных нанопорового секвенирования разработанное программное обеспечение обладает открытым кодом, позволяет осуществлять поиск баркодов и проводить по ним сортировку данных, обнаруживать праймеры с известной ошибкой и проводить обрезание последовательностей (по найденным праймерам). Результатом выполнения программы является набор обрезанных последовательностей, готовых к дальнейшей классификации по геномным базам данных.

The given work is devoted to the development of a method for analyzing nanopore sequencing data to prepare nucleotide sequences for subsequent classification by genomic databases. It is necessary to remove additional products of sequencing: adapters, barcodes, primers, which complicate the subsequent classification of sequences. Due to sequencing errors, additional sequences may either not be read at all or may be read inaccurately, with a certain number of errors. The number of errors is set by the user, but it should not be greater than the calculated maximum allowable error. The specified reading error determines the accuracy of the search. The Levenshtein distance search algorithm was chosen as the basis. It finds the minimum number of single-character operations required to transform one sequence into another. The Levenshtein algorithm was used to search for barcodes, primers, and to calculate the maximum allowable errors. Only barcode №6 on both sides was added to the analyzed samples. The developed software finds barkode №6 in 99% of sequences, of which 81% have both barkodes: forward and reverse. The primers are searched only among sequences with both barkodes. In these sequences primers were found in 46% of cases. In sequences with barkode №6, primers were found in 46%, of which 25% had both primers. Unlike commercial programs for processing nanopore sequencing data, the developed software is open source, allows searching for barcodes and sorting data by them, detects primers with a known error, and trims sequences (based on the found primers). The result of the program execution is a set of trimmed sequences ready for further classification by genomic databases.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать
Интернет Авторизованные пользователи СПбПУ Прочитать Печать
-> Интернет Анонимные пользователи

Оглавление

  • Содержание
  • Введение
  • глава 1. ОБЗОР ЛИТЕРАТУРЫ
  • 1.1. История секвенирования. Предпосылки к появлению третьего поколения секвенирования
  • 1.2. Первые исследования нанопорового секвенирования
  • 1.3. Компоненты системы нанопор
  • 1.3.1. Нанопоры: строение, виды
  • 1.3.2. Моторные белки
  • 1.4. Процесс секвенирования
  • 1.4.1. Виды нанопорового секвенирования
  • 1.4.2. Подготовка библиотек
  • 1.4.3. Процесс нанопорового секвенирования
  • 1.4.4. Представление результатов
  • 1.5. Обработка данных
  • 1.5.1. Бейсколлинг
  • 1.5.2. Выравнивание последовательностей
  • 1.6. Применение нанопрового секвенирования на примере исследования озера Восток
  • глава 2. МАТЕРИАЛЫ И МЕТОДЫ
  • 2.1. Предоставленные данные
  • 2.2. Постановка задачи, выбор реализации
  • /
  • 2.2.1. Блок-схема программы
  • 2.2.2. Инструменты
  • 2.2.3. Выбор алгоритма
  • 2.3. Осуществление поиска баркодов
  • 2.3.1. Особенности баркодов
  • 2.3.2. Ошибка прочтения баркодов
  • 2.3.3. Реализация алгоритма
  • 2.4. Поиск праймеров
  • 2.4.1. Особенности праймеров.
  • 2.4.2. Праймеры. Ошибка прочтения.
  • 2.4.3. Реализация алгоритма
  • 2.4.4. Обрезка праймеров
  • Глава 3. результаты
  • 3.1. Результат сортировки по баркодам
  • 3.2. Результат поиска праймеров
  • 3.3. Идентификация по геномным базам данных
  • Заключение
  • ВЫВОДЫ
  • Список ЛИТЕРАТУРЫ
  • приложение 1

Статистика использования

stat Количество обращений: 0
За последние 30 дней: 0
Подробная статистика