SPAdes (программное обеспечение)


SPAdes (Санкт-Петербургский геномный ассемблер ) [1] — это алгоритм сборки генома , разработанный для одноклеточных и многоклеточных бактериальных наборов данных. Поэтому он может не подойти для проектов с большими геномами. [1] [2]

SPAdes работает с Ion Torrent , PacBio , Oxford Nanopore и Illumina с парными концами, сопряженными парами и одиночными чтениями . [1] SPAdes были интегрированы в пайплайны Galaxy Гаем Лайонелом и Филипом Мабоном. [3]

Изучение генома отдельных клеток поможет отследить изменения, происходящие в ДНК с течением времени или связанные с воздействием различных условий. Кроме того, многие проекты, такие как Human Microbiome Project и открытие антибиотиков , получат большую пользу от секвенирования одиночных клеток (SCS). [4] [5] SCS имеет преимущество перед секвенированием ДНК, выделенной из большого количества клеток. Проблема усреднения значительных различий между ячейками может быть решена с помощью SCS. [6] Экспериментальные и вычислительные технологии оптимизируются, чтобы позволить исследователям секвенировать отдельные клетки. Например, одной из экспериментальных задач является амплификация ДНК, выделенной из одной клетки. Чтобы максимизировать точность и качество SCS, необходима равномерная амплификация ДНК. Было продемонстрировано, что использование нескольких циклов отжига и амплификации на основе петель ( MALBAC ) для амплификации ДНК дает меньшую погрешность по сравнению с полимеразной цепной реакцией ( ПЦР ) или амплификации с множественным смещением (MDA). [7] Кроме того, было признано, что проблемы, стоящие перед SCS, носят вычислительный, а не экспериментальный характер. [8] Доступный в настоящее время ассемблер, такой как Velvet, [9] Ассемблер String Graph (SGA) [10] и EULER-SR, [11] не предназначены для сборки SCS. [2] Сборка данных по отдельным клеткам затруднена из-за неравномерного охвата считывания, разной длины вставки, высокого уровня ошибок секвенирования и химерного считывания. [8] [12] [13] Таким образом, новый алгоритмический подход, SPAdes, был разработан для решения этих проблем.

SPAdes использует k-меры для построения начального графа де Брейна, а на следующих этапах выполняет теоретико-графовые операции, основанные на структуре графа, покрытии и длине последовательности. Кроме того, он корректирует ошибки итеративно. [2] Этапы сборки в SPAdes: [2]

SPAdes был разработан для преодоления проблем, связанных со сборкой данных одной ячейки, следующим образом: [2]

1. Неравномерное покрытие . SPAdes использует мультиразмерный граф де Брейна, который позволяет использовать различные значения k. Было предложено использовать меньшие значения k в регионах с низким охватом, чтобы свести к минимуму фрагментацию, и большие значения k в регионах с высоким охватом, чтобы уменьшить повторные коллапсы (этап 1 выше).


График логарифмического покрытия для данных секвенирования отдельных клеток генома E. coli . [14]