Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

SPAdes ( сборщик генома из Санкт-Петербурга ) [1] - это алгоритм сборки генома , который был разработан для наборов данных одноклеточных и многоклеточных бактерий . Следовательно, он может не подходить для крупных проектов геномов. [1] [2]

SPAdes работает с Ion Torrent , PacBio , Oxford Nanopore и Illumina с парными, парными и одиночными считываниями. [1] SPAdes был интегрирован в конвейеры Galaxy Гаем Лайонелом и Филипом Мабоном. [3]

Фон [ править ]

Изучение генома отдельных клеток поможет отследить изменения, которые происходят в ДНК с течением времени или связаны с воздействием различных условий. Кроме того, многие проекты, такие как Проект микробиома человека и открытие антибиотиков, получат большую пользу от секвенирования одной клетки (SCS). [4] [5] SCS имеет преимущество перед секвенированием ДНК, выделенной из большого количества клеток. Проблема усреднения значительных различий между ячейками может быть преодолена с помощью SCS. [6] Экспериментальные и вычислительные технологии оптимизируются, чтобы позволить исследователям секвенировать отдельные клетки. Например, амплификация ДНК, выделенной из одной клетки, является одной из экспериментальных задач. Чтобы добиться максимальной точности и качества SCS, необходима равномерная амплификация ДНК. Было продемонстрировано, что использование многократных циклов отжига и циклической амплификации ( MALBAC ) для амплификации ДНК вызывает меньшую систематическую ошибку по сравнению с полимеразной цепной реакцией ( ПЦР ) или многократной амплификацией смещения (MDA). [7] Кроме того, было признано, что задачи, стоящие перед SCS, являются скорее вычислительными, чем экспериментальными. [8] Доступный ассемблер, например Velvet., [9] Ассемблер графов строк (SGA) [10] и EULER-SR, [11] не были разработаны для обработки сборки SCS. [2] Сборка данных отдельных ячеек затруднена из-за неравномерного охвата чтения, вариации длины вставки, высокого уровня ошибок секвенирования и химерного чтения. [8] [12] [13] Таким образом, новый алгоритмический подход SPAdes был разработан для решения этих проблем.

Подход к сборке SPAdes [ править ]

SPAdes использует k-меры для построения начального графа де Брейна и на следующих этапах выполняет теоретико-графические операции, основанные на структуре графа, покрытии и длине последовательности. Более того, он итеративно корректирует ошибки. [2] Этапы сборки в SPAdes следующие: [2]

  • Этап 1: построение сборочного графа. SPAdes использует многомерный граф де Брейна (см. Ниже), который обнаруживает и удаляет выпуклости / пузыри и химерные считывания.
  • Этап 2: настройка k-бимеров (пар k-мер). Оцениваются точные расстояния между k-мерами в геноме (ребра в графе сборки).
  • Этап 3: построение графа парной сборки.
  • Этап 4: строительство контига. SPAdes выводит контиги и позволяет отображать считанные данные обратно в их позиции в графе сборки после его упрощения (обратного отслеживания).

Подробная информация о сборке SPAdes [ править ]

График логарифмического покрытия для данных секвенирования одной клетки для генома E. coli . [14]

SPAdes был разработан для решения следующих проблем, связанных со сборкой данных отдельных ячеек: [2]

1. Неравномерное покрытие . SPAdes использует многомерный граф де Брейна, который позволяет использовать разные значения k. Было предложено использовать меньшие значения k в регионах с низким покрытием, чтобы минимизировать фрагментацию, и большие значения k в регионах с высоким покрытием, чтобы уменьшить повторное коллапсирование (этап 1 выше).

2. Переменные размеры вставки парных чтений.. SPAdes использует базовую концепцию парных графов де Брейна. Тем не менее, парное чтение де Брейна хорошо работает при чтении на парном конце с фиксированным размером вставки. Поэтому SPAdes оценивает «расстояния» вместо использования «размеров вставки». Расстояние (d) считывания с парного конца определяется как для длины считывания L, d = размер вставки - L. Используя подход регулировки k-бимера, расстояния точно оцениваются. K-бимер, состоящий из k-мер «α» и «β» вместе с предполагаемым расстоянием между ними в геноме (α | β, d). Этот подход разбивает парные чтения на пары k-мер, которые преобразуются для определения пар ребер (biedges) в графах де Брейна. Эти наборы уступов участвуют в оценке расстояний между краевыми путями между k-мерами α и β. Посредством кластеризации оптимальная оценка расстояния выбирается из каждого кластера (этап 2, выше).Для построения парного графа де Брейна прямоугольные графы используются в SPAdes (этап 3). Подход с использованием прямоугольных графиков был впервые представлен в 2012 году.[15] для построения парных графов де Брейна с сомнительными расстояниями.

3. Выпуклость, кончики и химеры . Выпуклости и подсказки возникают из-за ошибок в середине и конце чтения соответственно. Химерная связь соединяет две неродственные подстроки генома. SPAdes идентифицирует их на основе топологии графа, длины и покрытия включенных в них неразветвленных путей. SPAdes сохраняет структуру данных, чтобы иметь возможность отследить все исправления или удаления.

SPAdes модифицирует ранее использованный подход удаления выпуклости [16] и подход итеративного графа де Брейна из Peng et al (2010) [17]и создает новый подход под названием «коррекция выпуклости», который обозначает коррекцию и удаление выпуклости. Алгоритм коррекции выпуклости можно резюмировать следующим образом: простая выпуклость образована двумя небольшими и похожими путями (P и Q), соединяющими одни и те же концентраторы. Если P - неразветвленный путь (h-путь), то SPAdes отображает каждое ребро в P на проекцию ребра в Q и удаляет P из графа, в результате чего покрытие Q увеличивается. В отличие от других сборщиков, которые используют удаление выпуклости отсечки фиксированного покрытия, SPAdes удаляет или проецирует h-пути с низким покрытием шаг за шагом. Это достигается за счет постепенного увеличения пороговых значений отсечки и повторения всех h-путей в увеличивающемся порядке охвата (для коррекции выпуклости и удаления химерных элементов) или длины (для удаления наконечника). Более того,чтобы гарантировать, что в граф не будут добавлены новые источники / приемники, SPAdes удаляет h-путь (при удалении химерного h-пути) или проекты (при коррекции выпуклости), только если его начальная и конечная вершины имеют как минимум две исходящие и конечные вершины. входящие края. Это помогает удалить h-пути с низким охватом, возникающие из-за ошибок секвенирования и химерного чтения, но не из-за повторов.

Конвейеры и производительность SPAdes [ править ]

SPAdes состоит из следующих инструментов: [1]

  • Инструмент исправления ошибок чтения, BayesHammer (для данных Illumina) и IonHammer (для данных IonTorrent) . [14] При традиционном исправлении ошибок редкие k-меры считаются ошибками. Это не применимо для СКС из-за неравномерного покрытия. Поэтому BayesHammer использует вероятностную субкластеризацию, которая исследует несколько центральных нуклеотидов, которые будут лучше охвачены, чем другие, аналогичных k-мер. [14] Было заявлено, что для набора данных отдельных клеток Escherichia coli ( E. coli ) BayesHammer работает примерно за 75 минут, занимает до 10 ГБ ОЗУ для выполнения исправления ошибок чтения и требует 10 ГБ дополнительного дискового пространства для временных файлов. .
  • Сборщик итеративного короткого чтения генома, SPAdes . Для того же набора данных этот шаг длится ~ 75 мин. На выполнение этапа 1 требуется ~ 40% этого времени (см. Подход к сборке SPAdes выше) при использовании трех итераций (k = 22, 34 и 56) и ~ 45%, 14% и 1% для завершения этапов 2, 3 и 4 соответственно. Для сборки также требуется до 5 ГБ оперативной памяти и 8 ГБ дополнительного дискового пространства.
  • Корректор несоответствия (который использует инструмент BWA ). Этот модуль требует наибольшего времени (~ 120 мин) и наибольшего дополнительного дискового пространства (~ 21 ГБ) для временных файлов. Для полной коррекции несоответствия собранных данных отдельных клеток E. coli требуется до 9 ГБ ОЗУ .
  • Модуль для сборки высокополиморфных диплоидных геномов, dipSPAdes . dipSPAdes конструирует более длинные контиги, используя дивергенцию между гапломами в повторяющихся областях генома. После этого он производит построение консенсусных контигов и выполняет сборку гаплотипов.

Сравнение ассемблеров [ править ]

В исследовании [18] сравнивали несколько ассемблеров генома на одноклеточных образцах E. coli . Эти ассемблеры: EULER-SR, [11] Velvet, [9] SOAPdenovo, [19] Velvet-SC, EULER + Velvet-SC (E + V-SC), [16] IDBA-UD [20] и SPAdes. Было продемонстрировано, что IDBA-UD и SPAdes показали лучшие результаты. [18] У SPAdes был самый большой NG50 (99 913, статистика NG50 такая же, как у N50, за исключением того, что используется размер генома, а не размер сборки). [21] Более того, используя эталонный геном E. coli , [22]SPAdes собрали самый высокий процент генома (97%) и наибольшее количество полных генов (4071 из 4324). [18] Выступления монтажников были следующими: [18]

  • Количество контигов:

IDBA-UD <Velvet <E + V-SC < SPAdes <EULER-SR <Velvet-SC <SOAPdenovo

  • NG50

SPAdes > IDBA-UD >>> E + V-SC> EULER-SR> Velvet> Velvet-SC> SOAPdenovo

  • Самый большой контиг:

IDBA-UD> SPAdes >> EULER-SR> Velvet = E + V-SC> Velvet-SC> SOAPdenovo

  • Картированный геном (%):

SPAdes > IDBA-UD> E + V-SC> Velvet-SC> EULER-SR> SOAPdenovo> Бархат

  • Количество неправильных сборок:

E + V-SC = Velvet = Velvet-SC <SOAPdenovo <IDBA-UD < SPADes <EULER-SR

См. Также [ править ]

  • Бархатный сборщик

Ссылки [ править ]

  1. ^ а б в г http://spades.bioinf.spbau.ru/release3.0.0/manual.html
  2. ^ a b c d e Банкевич А; Нурк С; Антипов Д; Гуревич А.А.; Дворкин М; Куликов А.С.; Лесин В.М.; Николенко С.И.; Pham S; Пржибельский А.Д .; Пышкин А.В.; Сироткин А.В.; Vyahhi N; Tesler G; Алексеев М.А.; Певзнер П.А. (2012). «SPAdes: новый алгоритм сборки генома и его приложения для секвенирования отдельных клеток» . Журнал вычислительной биологии . 19 (5): 455–477. DOI : 10,1089 / cmb.2012.0021 . PMC  3342519 . PMID  22506599 .
  3. ^ Навес для инструментов Galaxy
  4. ^ Gill S; Pop M; Deboy R; Eckburg P; Turnbaugh P; Самуэль Б; Гордон Дж; Relman D; Фрейзер-Лиггетт С; Нельсон К. (2006). «Метагеномный анализ микробиома дистального отдела кишечника человека» . Наука . 312 (5778): 1355–1359. Bibcode : 2006Sci ... 312.1355G . DOI : 10.1126 / science.1124234 . PMC 3027896 . PMID 16741115 .  
  5. ^ Ли Дж; Ведерас Дж (2009). «Открытие лекарств и натуральные продукты: конец эпохи или бесконечный рубеж?» (PDF) . Наука . 325 (5937): 161–165. Bibcode : 2009Sci ... 325..161L . DOI : 10.1126 / science.1168243 . PMID 19589993 . S2CID 206517350 .   
  6. ^ Лу S; Zong C; Вентилятор W; Ян М; Ли Дж; Чепмен А; Zhu P; Hu X; Xu L; Ян Л; FB; Цяо Дж; Тан Ф; Li R; Се X (2012). «Исследование мейотической рекомбинации и анеуплоидии отдельных сперматозоидов путем секвенирования всего генома» . Наука . 338 (6114): 1627–1630. Bibcode : 2012Sci ... 338.1627L . DOI : 10.1126 / science.1229112 . PMC 3590491 . PMID 23258895 .  
  7. ^ http://news.harvard.edu/gazette/story/2013/01/one-cell-is-all-you-need/
  8. ^ а б Родриг S; Malmstrom RR; Берлин AM; Birren BW; Henn MR; Чисхолм С.В. (2009). «Полногеномная амплификация и сборка de novo единичных бактериальных клеток» . PLOS ONE . 4 (9): e6864. Bibcode : 2009PLoSO ... 4.6864R . DOI : 10.1371 / journal.pone.0006864 . PMC 2731171 . PMID 19724646 .  
  9. ^ a b Зербино D; Бирни Э (2008). "Velvet: алгоритмы сборки короткого чтения de novo с использованием графов де Брейна" . Геномные исследования . 18 (5): 821–829. DOI : 10.1101 / gr.074492.107 . PMC 2336801 . PMID 18349386 .  
  10. ^ Симпсон JT; Дурбин Р. (2012). «Эффективная сборка больших геномов de novo с использованием сжатых структур данных» . Геномные исследования . 22 (3): 549–556. DOI : 10.1101 / gr.126953.111 . PMC 3290790 . PMID 22156294 .  
  11. ^ а б Певзнер П.А.; Тан Х; Уотерман М.С. (2001). «Эйлеров путь подход к сборке фрагментов ДНК» . Труды Национальной академии наук Соединенных Штатов Америки . 98 (17): 9748–9753. Bibcode : 2001PNAS ... 98.9748P . DOI : 10.1073 / pnas.171285098 . PMC 55524 . PMID 11504945 .  
  12. ^ Медведев П; Скотт Э; Какарадов Б; Певзнер П (2011). «Исправление ошибок высокопроизводительных наборов данных секвенирования с неоднородным покрытием» (PDF) . Биоинформатика . 27 (13): i137–141. DOI : 10.1093 / биоинформатики / btr208 . PMC 3117386 . PMID 21685062 .   
  13. ^ Ishoey T; Woyke T; Степанаускас Р; Новотный М; Ласкен RS (2008). «Геномное секвенирование отдельных микробных клеток из образцов окружающей среды» . Текущее мнение в микробиологии . 11 (3): 198–204. DOI : 10.1016 / j.mib.2008.05.006 . PMC 3635501 . PMID 18550420 .  
  14. ^ a b c Николенко С.И.; Коробейников А.И.; Алексеев М.А. (2012). «BayesHammer: байесовская кластеризация для исправления ошибок при секвенировании одной клетки» (PDF) . BMC Genomics . 14 (Приложение 1): S7. arXiv : 1211.2756 . DOI : 10.1186 / 1471-2164-14-S1-S7 . PMC 3549815 . PMID 23368723 .   
  15. ^ Вяххи Н; Pham SK; Певзнер П (2012). От графиков де Брейна к прямоугольным графикам сборки генома . Конспект лекций по биоинформатике . Конспект лекций по информатике. 7534 . С. 249–261. DOI : 10.1007 / 978-3-642-33122-0_20 . ISBN 978-3-642-33121-3.
  16. ^ а б Читаз Н; Йи-Гринбаум JL; Tesler G; Ломбардо MJ; Dupont CL; Badger JH; Новотный М; Rusch DB; Fraser LJ; Гормли Н.А.; Schulz-Trieglaff O; Smith GP; Эверс DJ; Певзнер П.А.; Ласкен RS (2011). «Эффективная сборка de novo одноклеточных бактериальных геномов из коротких наборов данных» . Nat Biotechnol . 29 (10): 915–921. DOI : 10.1038 / nbt.1966 . PMC 3558281 . PMID 21926975 .  
  17. ^ Peng Y .; Leung HCM; Ю С.-М; Подбородок FYL (2010). IDBA - практический итеративный граф де Брейна на новом ассемблере . Лект. Notes Comput. Sci . Конспект лекций по информатике. 6044 . С.  426–440 . Bibcode : 2010LNCS.6044..426P . CiteSeerX 10.1.1.157.195 . DOI : 10.1007 / 978-3-642-12683-3_28 . hdl : 10722/129571 . ISBN  978-3-642-12682-6.
  18. ^ a b c d Гуревич А; Савельев В; Vyahhi N; Теслер Г (2013). «QUAST: инструмент оценки качества сборки генома» (PDF) . Биоинформатика . 29 (8): 1072–1075. DOI : 10.1093 / биоинформатики / btt086 . PMC 3624806 . PMID 23422339 .   
  19. ^ Ли Р; Zhu H; Ruan J; Qian W; Fang X; Ши З; Li Y; Li S; Shan G; Кристиансен К; Li S; Ян Х; Ван Дж; Ван Дж (2010). «Сборка de novo геномов человека с массовым параллельным секвенированием короткого чтения» (PDF) . Геномные исследования . 20 (2): 265–272. DOI : 10.1101 / gr.097261.109 . PMC 2813482 . PMID 20019144 .   
  20. ^ Пэн Y; Leung HCM; Ю СМ; Подбородок FYL (2012). «IDBA-UD: de novo ассемблер для данных одноклеточного и метагеномного секвенирования с очень неравномерной глубиной» (PDF) . Биоинформатика . 28 (11): 1–8. DOI : 10.1093 / биоинформатики / bts174 . PMID 22495754 .  
  21. ^ http://bioinf.spbau.ru/spades/
  22. ^ Blattner FR; Plunkett G; Блох С; Perna N; Burland V; Райли М; Collado-Vides J; Гласнер Дж; Rode C; Mayhew G; Грегор Дж; Дэвис Н; Киркпатрик H; Goeden M; Роза D; Mau B; Шао И (1997). «Полная последовательность генома Escherichia coli K-12» . Наука . 277 (5331): 1453–1462. DOI : 10.1126 / science.277.5331.1453 . PMID 9278503 .