Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Это пример эшафота.

Строительные леса - это метод, используемый в биоинформатике . Он определяется следующим образом: [1]

Свяжите вместе несмежные серии геномных последовательностей в каркас, состоящий из последовательностей, разделенных пробелами известной длины. Связанные последовательности обычно представляют собой смежные последовательности, соответствующие перекрытиям при считывании.

При создании чернового варианта генома отдельные считывания ДНК затем собираются в контиги , которые по своей природе сборки имеют промежутки между ними. Следующим шагом будет заполнение промежутков между этими контигами для создания каркаса. [2] Это можно сделать с помощью оптического картирования или секвенирования пары спариваний. [3]

Программное обеспечение для сборки [ править ]

Секвенирование генома Haemophilus influenzae ознаменовало появление каркаса. Этот проект сгенерировал в общей сложности 140 контигов, которые были ориентированы и связаны с помощью парных конечных чтений. Успех этой стратегии побудил к созданию программного обеспечения Grouper, которое было включено в сборщики генома. До 2001 года это было единственное программное обеспечение для строительных лесов. [ необходима цитата ] После проекта "Геном человека"и Celera доказали, что можно создать большой черновой вариант генома, было создано несколько других подобных программ. Bambus был создан в 2003 году и представлял собой переработку исходного программного обеспечения Grouper, но предоставил исследователям возможность настраивать параметры строительных лесов. Это программное обеспечение также позволяло необязательно использовать другие данные связывания, такие как порядок контигов в эталонном геноме. [4]

Алгоритмы, используемые программным обеспечением сборки, очень разнообразны и могут быть классифицированы как основанные на итеративном упорядочении маркеров или основанные на графах. Приложения на основе графиков могут упорядочивать и ориентировать более 10 000 маркеров по сравнению с максимальным количеством 3000 маркеров, которые можно использовать в итеративных приложениях маркеров. [5]Алгоритмы можно разделить на жадные, не жадные, консервативные и неконсервативные. Bambus использует жадный алгоритм, определяемый как таковой, потому что он сначала объединяет контиги с наибольшим количеством ссылок. Алгоритм, используемый Bambus 2, удаляет повторяющиеся контиги перед их ориентацией и упорядочиванием в каркасы. SSPACE также использует жадный алгоритм, который начинает строить свой первый каркас с самым длинным контигом, предоставленным данными последовательности. SSPACE - это наиболее часто упоминаемый инструмент сборки в публикациях по биологии, вероятно, из-за того, что он оценивается как значительно более интуитивно понятная программа для установки и запуска, чем другие ассемблеры. [6]

В последние годы появились новые виды ассемблеров, способных интегрировать данные о связях из различных типов карт связей. ALLMAPS - первая из таких программ, способная комбинировать данные генетических карт, созданных с использованием SNP или данных рекомбинации, с физическими картами, такими как оптические или синтенные карты. [7]

Некоторые программы, такие как ABySS и SOAPdenovo, содержат алгоритмы заполнения промежутков, которые, хотя и не создают никаких новых каркасов, служат для уменьшения длины промежутка между контигами отдельных каркасов. Автономная программа GapFiller способна закрывать большее количество пробелов, используя меньше памяти, чем алгоритмы заполнения пробелов, содержащиеся в программах сборки. [8]

Уттуркар и др. исследовали полезность нескольких различных пакетов программного обеспечения для сборки в сочетании с данными гибридных последовательностей. Они пришли к выводу, что алгоритмы ALLPATHS-LG и SPAdes превосходят другие ассемблеры с точки зрения количества, максимальной длины и длины N50 контигов и каркасов. [9]

Строительные леса и секвенирование нового поколения [ править ]

Большинство высокопроизводительных платформ секвенирования следующего поколения обеспечивают более короткие длины чтения по сравнению с секвенированием по Сэнгеру . Эти новые платформы способны генерировать большие объемы данных за короткие периоды времени, но до тех пор, пока не были разработаны методы сборки больших геномов de novo из коротких последовательностей чтения, секвенирование по Сэнгеру оставалось стандартным методом создания эталонного генома. [10] Хотя платформы Illumina теперь могут генерировать считывания пар пар со средней длиной 150 пар оснований, изначально они могли генерировать считывания только 75 пар оснований или меньше, что заставило многих людей в научном сообществе сомневаться в достоверности эталонного генома.может когда-либо быть сконструирован с использованием технологии короткого чтения. Повышенная сложность сборки контигов и каркасов, связанная с новыми технологиями, создала спрос на новые мощные компьютерные программы и алгоритмы, способные анализировать данные. [11]

Одной из стратегий, включающих высокопроизводительное секвенирование следующего поколения, является гибридное секвенирование, при котором несколько технологий секвенирования используются на разных уровнях охвата, чтобы они могли дополнять друг друга со своими соответствующими сильными сторонами. Выпуск платформы SMRT от Pacific Biosciences ознаменовал начало секвенирования отдельных молекул и технологий длительного чтения. Было показано, что 80–100-кратное покрытие с помощью технологии SMRT, которая генерирует среднее считывание с длиной 5456 пар оснований, обычно достаточно для создания законченной сборки de novo для прокариотических организмов. Когда у исследователя нет средств для такого уровня охвата, он может решить использовать гибридный подход.

Goldberg et al. оценили эффективность сочетания высокопроизводительного пиросеквенирования с традиционным секвенированием по Сэнгеру. С помощью этого подхода они смогли значительно увеличить длину контига N50 и уменьшить длину промежутка и даже закрыть один микробный геном. [12]

Оптическое отображение [ править ]

Было показано, что интеграция карт сцепления может помочь сборкам de novo с большими данными рекомбинации в масштабе хромосом, без которых сборки могут быть подвержены ошибкам упорядочивания макросов. Оптическое картирование - это процесс иммобилизации ДНК на предметном стекле и ее переваривания рестрикционными ферментами. Затем концы фрагментов флуоресцентно маркируют и снова сшивают. В течение последних двух десятилетий оптическое картографирование было непомерно дорогим, но последние достижения в области технологий значительно снизили стоимость. [5] [13]

См. Также [ править ]

  1. ^ "Онтология EDAM биоинформатики операций и форматов данных" .
  2. ^ Уотерстон, Роберт (2002). «О секвенировании генома человека» . Труды Национальной академии наук Соединенных Штатов Америки . 99 (6): 3712–3716. Bibcode : 2002PNAS ... 99.3712W . DOI : 10.1073 / pnas.042692499 . PMC 122589 . PMID 11880605 .  
  3. ^ Флот, Жан-Франсуа; Мари-Нелли, Эрве; Кошул, Ромен (2015-10-07). «Контактная геномика: каркас и фазирование (мета) геномов с использованием хромосомных трехмерных физических сигнатур» . Письма FEBS . 589 (20 баллов A): 2966–2974. DOI : 10.1016 / j.febslet.2015.04.034 . ISSN 1873-3468 . PMID 25935414 .  
  4. ^ Поп, Михай; Kosack, Daniel S .; Зальцберг, Стивен Л. (2004-01-01). «Иерархические леса с бамбусом» . Геномные исследования . 14 (1): 149–159. DOI : 10.1101 / gr.1536204 . ISSN 1088-9051 . PMC 314292 . PMID 14707177 .   
  5. ^ a b Fierst JL (2015) Использование карт сцепления для исправления и создания основы сборки генома de novo: методы, проблемы и вычислительные инструменты. В кн .: Границы генетики. http://journal.frontiersin.org/article/10.3389/fgene.2015.00220/full. Доступ 7 апреля 2017 г.
  6. ^ Хант, М; Ньюболд, С; Берриман, М; Отто, Т.Д. (2014). «Комплексная оценка монтажных инструментов строительных лесов» . Геномная биология . 15 (3): R42. DOI : 10.1186 / GB-2014-15-3-R42 . PMC 4053845 . PMID 24581555 .  
  7. ^ Тан, H; Чжан, X; Miao, C; и другие. (2015). «ALLMAPS: надежное упорядочивание строительных лесов на основе нескольких карт» . Геномная биология . 16 : 3. DOI : 10.1186 / s13059-014-0573-1 . PMC 4305236 . PMID 25583564 .  
  8. ^ Boetzer, M; Пировано, W (2012). «К почти закрытым геномам с GapFiller» . Геномная биология . 13 (6): R56. DOI : 10.1186 / GB-2012-13-6-R56 . PMC 3446322 . PMID 22731987 .  
  9. ^ Уттуркар, SM; Klingeman, DM; Земля, ML; и другие. (2014). «Оценка и проверка de novo и гибридных методов сборки для получения высококачественных последовательностей генома» . Биоинформатика . 30 (19): 2709–2716. DOI : 10.1093 / биоинформатики / btu391 . PMC 4173024 . PMID 24930142 .  
  10. ^ Ли, Жуйцян; Чжу, Хунмэй; Руан, Цзюэ; Цянь, Вубин; Фанг, Сяодун; Ши, Чжунбинь; Ли, Инжруй; Ли, Шэнтин; Шан, Гао (09.02.2017). «Сборка de novo геномов человека с массовым параллельным секвенированием короткого чтения» . Геномные исследования . 20 (2): 265–272. DOI : 10.1101 / gr.097261.109 . ISSN 1088-9051 . PMC 2813482 . PMID 20019144 .   
  11. ^ Парик, Чандра Шекхар; Смочинский, Рафаль; Третьин, Анджей (09.02.2017). «Технологии секвенирования и секвенирование генома» . Журнал прикладной генетики . 52 (4): 413–435. DOI : 10.1007 / s13353-011-0057-х . ISSN 1234-1983 . PMC 3189340 . PMID 21698376 .   
  12. ^ Голдберг, Сюзанна MD; и другие. (2006). «Гибридный подход Сэнгера / пиросеквенирования для создания высококачественных предварительных сборок морских микробных геномов» . Труды Национальной академии наук Соединенных Штатов Америки . 103 (30): 11240–11245. Bibcode : 2006PNAS..10311240G . DOI : 10.1073 / pnas.0604351103 . JSTOR 30049789 . PMC 1544072 . PMID 16840556 .   
  13. ^ Chaisson, Марк; Уилсон, Ричард; Эйхлер, Эван (7 октября 2015 г.). «Генетические вариации и сборка de novo геномов человека» . Природа Обзоры Генетики . 16 (11): 627–640. DOI : 10.1038 / nrg3933 . PMC 4745987 . PMID 26442640 .