Сборка последовательности

В биоинформатике сборка последовательности относится к выравниванию и слиянию фрагментов более длинной последовательности ДНК с целью реконструкции исходной последовательности. Это необходимо, поскольку технология секвенирования ДНК не может считывать целые геномы за один раз, а скорее считывает небольшие фрагменты от 20 до 30 000 оснований, в зависимости от используемой технологии. Как правило, короткие фрагменты, называемые считываниями, являются результатом секвенирования геномной ДНК дробовиком или генного транскрипта ( EST ).

Проблему сборки последовательности можно сравнить с взятием множества копий книги, пропусканием каждой из них через шредер с разными резаками и сборкой текста книги обратно, просто глядя на разорванные кусочки. Помимо очевидной сложности этой задачи, есть некоторые дополнительные практические проблемы: в оригинале может быть много повторяющихся абзацев, а некоторые фрагменты могут быть изменены во время измельчения, чтобы иметь опечатки. Также могут быть добавлены отрывки из другой книги, а некоторые обрывки могут быть совершенно неузнаваемы.

Первые ассемблеры последовательностей начали появляться в конце 1980-х и начале 1990-х годов как варианты более простых программ выравнивания последовательностей , чтобы собрать воедино огромное количество фрагментов, созданных автоматическими инструментами секвенирования, называемыми ДНК-секвенаторами . По мере того, как секвенированные организмы росли в размерах и усложнялись (от небольших вирусов до плазмид , бактерий и, наконец , эукариот ), программы сборки, используемые в этих геномных проектах , нуждались во все более изощренных стратегиях для обработки:

Столкнувшись с проблемой сборки первых более крупных геномов эукариот — плодовой мушки Drosophila melanogaster в 2000 году и генома человека всего год спустя, — ученые разработали ассемблеры, такие как Celera Assembler ^[1] и Arachne ^[2] , способные обрабатывать 130 миллионов геномов. (например, плодовая мушка D. melanogaster ) до 3 миллиардов (например, геном человека) пар оснований. Вслед за этими усилиями несколько других групп, в основном в крупных центрах секвенирования генома, построили крупномасштабные ассемблеры, и была начата работа с открытым исходным кодом, известная как AMOS ^[3] , чтобы объединить все инновации в технологии сборки генома под открытым исходным кодом . фреймворк.

Экспрессированная метка последовательности или сборка EST была ранней стратегией, применявшейся с середины 1990-х до середины 2000-х годов, для сборки отдельных генов, а не целых геномов. Проблема отличается от сборки генома несколькими способами. Входные последовательности для сборки EST представляют собой фрагменты транскрибируемой мРНК клетки и представляют собой лишь подмножество всего генома. Ряд алгоритмических проблем различается между сборкой генома и EST. Например, геномы часто имеют большое количество повторяющихся последовательностей, сконцентрированных в межгенных областях. Транскрибированные гены содержат гораздо меньше повторов, что несколько упрощает сборку. С другой стороны, некоторые гены экспрессируются (транскрибируются) в очень большом количестве (например, гены домашнего хозяйства ).), что означает, что в отличие от полногеномного дробового секвенирования, выборка прочтений не является однородной по всему геному.

Сборка EST значительно усложняется такими особенностями, как (цис-) альтернативный сплайсинг , транс-сплайсинг , однонуклеотидный полиморфизм и посттранскрипционная модификация . Начиная с 2008 года, когда была изобретена RNA-Seq , секвенирование EST было заменено гораздо более эффективной технологией, описанной в разделе « Сборка транскриптома de novo » .

Стратегия того, как ассемблер последовательности будет брать фрагменты (показаны под черной полосой) и сопоставлять перекрытия между ними, чтобы собрать окончательную последовательность (черным цветом). Потенциально проблемные повторы показаны над последовательностью (розовым цветом выше). Без перекрывающихся фрагментов может оказаться невозможным отнести эти сегменты к какой-либо конкретной области.