Секвенирование дробовика


Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

В генетике , метод дробовик является методом , используемым для секвенирования случайных ДНК пряди. Он назван по аналогии с быстро расширяющейся квазислучайной группировкой выстрелов из дробовика .

Метод обрыва цепи при секвенировании ДНК («секвенирование по Сэнгеру») можно использовать только для коротких цепей ДНК от 100 до 1000 пар оснований . Из-за этого ограничения размера более длинные последовательности подразделяются на более мелкие фрагменты, которые можно секвенировать отдельно, и эти последовательности собираются для получения общей последовательности.

Есть два основных метода этого процесса фрагментации и секвенирования. Прогулка по праймеру (или «хромосомная прогулка») проходит по всей нити по частям, тогда как секвенирование дробовиком - более быстрый, но более сложный процесс, в котором используются случайные фрагменты.

При секвенировании «дробовиком» [1] [2] ДНК случайным образом разбивается на множество небольших сегментов, которые секвенируются с использованием метода обрыва цепи для получения считываний . Множественные перекрывающиеся считывания целевой ДНК получают путем выполнения нескольких раундов этой фрагментации и секвенирования. Затем компьютерные программы используют перекрывающиеся концы различных операций чтения, чтобы собрать их в непрерывную последовательность. [1]

Секвенирование методом дробовика было одной из технологий-предшественников, которая отвечала за возможность секвенирования всего генома .

Пример

Например, рассмотрим следующие два раунда чтения из дробовика:

В этом чрезвычайно упрощенном примере ни одно из считываний не покрывает полную длину исходной последовательности, но четыре считывания могут быть объединены в исходную последовательность, используя перекрытие их концов для выравнивания и упорядочивания. На самом деле в этом процессе используются огромные объемы информации, изобилующей двусмысленностями и ошибками в последовательности. Сборка сложных геномов дополнительно усложняется из-за большого количества повторяющихся последовательностей , что означает, что аналогичные короткие чтения могут происходить из совершенно разных частей последовательности.

Для преодоления этих трудностей и точной сборки последовательности необходимо множество перекрывающихся считываний для каждого сегмента исходной ДНК. Например, для завершения проекта «Геном человека» большая часть генома человека была секвенирована с 12-кратным или большим охватом ; то есть каждое основание в конечной последовательности присутствовало в среднем в 12 различных считываниях. Даже в этом случае современные методы не смогли выделить или собрать надежную последовательность примерно для 1% ( эухроматического ) генома человека по состоянию на 2004 г. [3]

Секвенирование всего генома

История

Полное геномное секвенирование небольших геномов (от 4000 до 7000 пар оснований) было впервые предложено в 1979 году. [1] Первым геномом, секвенированным методом дробовика, был геном вируса мозаики цветной капусты , опубликованный в 1981 году [4] [5]

Парное секвенирование

Более широкое применение выиграло от попарного секвенирования концов , известного в просторечии как секвенирование двуствольного ружья . Поскольку проекты секвенирования начали включать более длинные и сложные последовательности ДНК, несколько групп начали понимать, что полезную информацию можно получить путем секвенирования обоих концов фрагмента ДНК. Хотя секвенирование обоих концов одного и того же фрагмента и отслеживание парных данных было более обременительным, чем секвенирование одного конца двух отдельных фрагментов, знание того, что две последовательности были ориентированы в противоположных направлениях и были длиной примерно с фрагмент отдельно от каждого из них. другой был ценным при восстановлении последовательности исходного целевого фрагмента.

История . Первое опубликованное описание использования парных концов было в 1990 г. [6] как часть секвенирования локуса HGPRT человека , хотя использование парных концов было ограничено закрытием пробелов после применения традиционного подхода к секвенированию с дробовиком. Первое теоретическое описание стратегии чистого попарного конечного секвенирования, предполагающей наличие фрагментов постоянной длины, было сделано в 1991 году. [7] В то время в сообществе существовало консенсусное мнение о том, что оптимальная длина фрагмента для парного конечного секвенирования будет в три раза больше длины чтения последовательности. . В 1995 году Roach et al. [8]представили новшество использования фрагментов разного размера и продемонстрировали, что чистая стратегия попарного концевого секвенирования возможна на больших мишенях. Впоследствии эта стратегия была принята Институтом геномных исследований (TIGR) для секвенирования генома бактерии Haemophilus influenzae в 1995 г. [9], а затем компанией Celera Genomics для секвенирования генома Drosophila melanogaster (плодовая муха) в 2000 г. [10] а затем и геном человека.

Подход

Чтобы применить эту стратегию, высокомолекулярную цепь ДНК разрезают на случайные фрагменты, выбирают по размеру (обычно 2, 10, 50 и 150 т.п.н.) и клонируют в соответствующий вектор . Затем клоны секвенируют с обоих концов с использованием метода терминации цепи, получая две короткие последовательности. Каждая последовательность называется считыванием конца или считыванием 1 и считыванием 2, а два считывания из одного и того же клона называются парами сопряжения . Поскольку метод завершения цепочки обычно может производить считывания длиной от 500 до 1000 оснований, во всех клонах, кроме самых маленьких, пары спариваний редко перекрываются.

сборка

Исходная последовательность реконструируется из считываний с использованием программного обеспечения для сборки последовательностей . Во-первых, перекрывающиеся чтения собираются в более длинные составные последовательности, известные как контиги . Контиги могут быть соединены вместе в каркасы , следуя связям между парами сопряжений . Расстояние между контигами можно вывести из положений пар сопряженных пар, если известна средняя длина фрагмента библиотеки и имеется узкое окно отклонения. В зависимости от размера промежутка между контигами можно использовать разные методы для поиска последовательности в промежутках. Если разрыв небольшой (5-20кб), то использование полимеразной цепной реакции(ПЦР) для амплификации области требуется с последующим секвенированием. Если разрыв большой (> 20kb), тогда большой фрагмент клонируется в специальных векторах, таких как бактериальные искусственные хромосомы (BAC), с последующим секвенированием вектора.

Плюсы и минусы

Сторонники этого подхода утверждают, что можно секвенировать весь геном сразу, используя большие массивы секвенсоров, что делает весь процесс намного более эффективным, чем более традиционные подходы. Противники утверждают, что, хотя этот метод позволяет быстро секвенировать большие области ДНК, ее способность правильно связывать эти области является подозрительной, особенно для геномов с повторяющимися областями. По мере того , как программы сборки последовательностей становятся более сложными, а вычислительная мощность становится дешевле, это ограничение может быть преодолено. [ необходима цитата ]

Покрытие

Покрытие (глубина считывания или глубина) - это среднее количество считываний, представляющих данный нуклеотид в реконструированной последовательности. Его можно рассчитать по длине исходного генома ( G ), количеству чтений ( N ) и средней длине чтения ( L ) как . Например, гипотетический геном с 2000 пар оснований, реконструированный из 8 считываний со средней длиной 500 нуклеотидов, будет иметь двукратную избыточность. Этот параметр также позволяет оценить другие величины, такие как процент генома, покрытого чтениями (иногда также называемое покрытием). Желателен высокий охват в секвенировании дробовика, потому что он может преодолеть ошибки при вызове базы и сборке. ПредметТеория секвенирования ДНК рассматривает взаимосвязь таких величин.

Иногда различают покрытие последовательности и физическое покрытие . Покрытие последовательностей - это среднее количество считываний базы (как описано выше). Физическое покрытие - это среднее количество раз, когда база считывается или охватывается парными считываниями сопряжения. [11]

Иерархическая последовательность дробовика

При секвенировании целого генома (вверху) весь геном случайным образом разрезается на небольшие фрагменты (подходящего размера для секвенирования), а затем собирается заново. При иерархическом секвенировании (внизу) геном сначала разбивается на более крупные сегменты. После того, как порядок этих сегментов определен, они далее разрезаются на фрагменты, размер которых подходит для секвенирования.

Хотя секвенирование дробовика теоретически может быть применено к геному любого размера, его прямое применение к секвенированию больших геномов (например, генома человека ) было ограничено до конца 1990-х годов, когда технологические достижения сделали практическую обработку огромных количеств сложных данных, участвующих в процессе. [12] Исторически считалось, что полногеномное секвенирование ограничено как огромным размером больших геномов, так и сложностью, добавленной высоким процентом повторяющейся ДНК (более 50% для генома человека), присутствующей в больших геномах. [13]Не было широко признано, что полногеномная последовательность большого генома может обеспечить надежные данные. По этим причинам другие стратегии, которые снижали вычислительную нагрузку на сборку последовательности, должны были быть использованы до выполнения секвенирования дробовика. [13] При иерархическом секвенировании, также известном как секвенирование сверху вниз, физическая карта генома с низким разрешением создается до фактического секвенирования. По этой карте для секвенирования выбирается минимальное количество фрагментов, покрывающих всю хромосому. [14] Таким образом, требуется минимальный объем высокопроизводительного секвенирования и сборки.

Амплифицированный геном сначала разрезают на более крупные части (50-200kb) и клонируют в бактериального хозяина с использованием BAC или искусственных хромосом, полученных из P1 (PAC). Поскольку множество копий генома были стриженые случайным образом , фрагменты , содержащиеся в этих клонах имеют разные концы, и с достаточным покрытием (см раздел выше) найти леску из BAC контигов , который охватывает весь геном теоретически возможно. Эти леса называются плиточной дорожкой .

Контиг BAC, который покрывает всю интересующую область генома, составляет тайлинг-путь.

После того, как путь мозаики был найден, BAC, которые образуют этот путь, случайным образом разрезаются на более мелкие фрагменты и могут быть упорядочены с использованием метода дробовика в меньшем масштабе.

Хотя полные последовательности контигов ВАС неизвестны, их ориентация относительно друг друга известна. Существует несколько методов определения этого порядка и выбора BAC, составляющих траекторию листов. Общая стратегия включает определение положений клонов относительно друг друга, а затем выбор наименьшего количества клонов, необходимых для образования непрерывного каркаса, который покрывает всю интересующую область. Порядок клонов определяется путем определения способа их перекрытия. [15] Перекрывающиеся клоны можно идентифицировать несколькими способами. Небольшой радиоактивно или химически меченый зонд, содержащий сайт с меткой последовательностью (STS), может быть гибридизирован на микроматрице, на которой печатаются клоны. [15]Таким образом идентифицируются все клоны, содержащие определенную последовательность в геноме. Конец одного из этих клонов затем можно секвенировать, чтобы получить новый зонд, и процесс повторить в методе, называемом хромосомным хождением.

Альтернативно, библиотека ВАС может быть расщеплена рестриктазой . Предполагается, что два клона, которые имеют несколько общих размеров фрагментов, перекрываются, потому что они содержат несколько общих сайтов рестрикции с одинаковым интервалом. [15] Этот метод геномного картирования называется рестрикционным фингерпринтингом, потому что он идентифицирует набор рестрикционных сайтов, содержащихся в каждом клоне. После того, как совпадение между клонами было обнаружено и их порядок относительно генома известен, каркас минимального подмножества этих контигов, который покрывает весь геном, секвенируется с дробовиком. [14]

Поскольку оно включает в себя сначала создание карты генома с низким разрешением, иерархическое секвенирование дробовика происходит медленнее, чем полногеномное секвенирование дробовика, но в меньшей степени зависит от компьютерных алгоритмов, чем полногеномное секвенирование дробовика. Однако процесс создания обширной библиотеки BAC и выбора траектории мозаики делает иерархическое упорядочение дробовика медленным и трудоемким. Теперь, когда доступна технология и продемонстрирована надежность данных, [13] скорость и экономическая эффективность полногеномного секвенирования сделали его основным методом секвенирования генома.

Новые технологии секвенирования

Классическое секвенирование методом дробовика было основано на методе секвенирования по Сэнгеру: это был самый продвинутый метод секвенирования геномов примерно с 1995 по 2005 год. Стратегия дробовика все еще применяется сегодня, однако с использованием других технологий секвенирования, таких как секвенирование с коротким чтением и секвенирование с длинным чтением .

Короткое чтение или секвенирование «следующего поколения» дает более короткие чтения (где-то от 25 до 500 пар оснований), но многие сотни тысяч или миллионы прочтений за относительно короткое время (порядка дня). [16] Это приводит к большому охвату, но процесс сборки требует гораздо больших вычислительных ресурсов. Эти технологии значительно превосходят секвенирование по Сэнгеру из-за большого объема данных и относительно короткого времени, необходимого для секвенирования всего генома. [17]

Метагеномное секвенирование дробовика

Считывания длиной 400-500 пар оснований достаточно для определения вида или штамма организма, из которого происходит ДНК, при условии, что его геном уже известен, с использованием, например, программного обеспечения таксономического классификатора на основе k- мер . Благодаря миллионам считываний в результате секвенирования следующего поколения образца окружающей среды можно получить полный обзор любого сложного микробиома с тысячами видов, например кишечной флоры . Преимущества перед секвенированием ампликона 16S рРНК : не ограничиваются бактериями; классификация на уровне штаммов, при которой при секвенировании ампликона определяется только род; и возможность извлекать целые гены и определять их функцию как часть метагенома. [18]Чувствительность метагеномного секвенирования делает его привлекательным выбором для клинического использования . [19] Однако это подчеркивает проблему загрязнения образца или трубопровода секвенирования. [20]

Смотрите также

  • Клиническое метагеномное секвенирование
  • Теория секвенирования ДНК

использованная литература

  1. ^ а б в Staden, R (1979). «Стратегия секвенирования ДНК с использованием компьютерных программ» . Исследования нуклеиновых кислот . 6 (70): 2601–10. DOI : 10.1093 / NAR / 6.7.2601 . PMC  327874 . PMID  461197 .
  2. Перейти ↑ Anderson, S (1981). «Секвенирование ДНК дробовика с использованием клонированных фрагментов, генерируемых ДНКазой I» . Исследования нуклеиновых кислот . 9 (13): 3015–27. DOI : 10.1093 / NAR / 9.13.3015 . PMC 327328 . PMID 6269069 .  
  3. ^ Консорциум по секвенированию генома человека, Международный (21 октября 2004 г.). «Завершение эухроматической последовательности генома человека» . Природа . 431 (7011): 931–945. Bibcode : 2004Natur.431..931H . DOI : 10,1038 / природа03001 . PMID 15496913 . 
  4. ^ Гарднер, Ричард С .; Ховарт, Алан Дж .; Хан, Питер; Браун-Луеди, Марианна; Шеперд, Роберт Дж .; Мессинг, Иоахим (25.06.1981). «Полная нуклеотидная последовательность инфекционного клона вируса мозаики цветной капусты, полученная путем секвенирования дробовика M13mp7» . Исследования нуклеиновых кислот . 9 (12): 2871–2888. DOI : 10.1093 / NAR / 9.12.2871 . ISSN 0305-1048 . PMC 326899 . PMID 6269062 .   
  5. ^ Доктроу, Брайан (2016-07-19). «Профиль Иоахима Мессинга» . Труды Национальной академии наук . 113 (29): 7935–7937. DOI : 10.1073 / pnas.1608857113 . ISSN 0027-8424 . PMC 4961156 . PMID 27382176 .   
  6. ^ Эдвардс, A; Каски, Т. (1991). «Стратегии закрытия для случайного секвенирования ДНК». Методы: дополнение к методам энзимологии . 3 (1): 41–47. DOI : 10.1016 / S1046-2023 (05) 80162-8 .
  7. ^ Эдвардс, A; Voss, H .; Rice, P .; Civitello, A .; Stegemann, J .; Schwager, C .; Zimmerman, J .; Erfle, H .; Caskey, T .; Ансорге, В. (1990). «Автоматизированное секвенирование ДНК человеческого локуса HPRT». Геномика . 6 (4): 593–608. DOI : 10.1016 / 0888-7543 (90) 90493-E . PMID 2341149 . 
  8. ^ Роуч, JC; Boysen, C; Ван, К; Капюшон, L (1995). «Парное секвенирование конца: единый подход к геномному картированию и секвенированию». Геномика . 26 (2): 345–353. DOI : 10.1016 / 0888-7543 (95) 80219-C . PMID 7601461 . 
  9. ^ Fleischmann, RD; и другие. (1995). «Полное геномное случайное секвенирование и сборка Haemophilus influenzae Rd». Наука . 269 (5223): 496–512. Bibcode : 1995Sci ... 269..496F . DOI : 10.1126 / science.7542800 . PMID 7542800 . S2CID 10423613 .  
  10. ^ Адамс, Мэриленд; и другие. (2000). «Последовательность генома Drosophila melanogaster» (PDF) . Наука . 287 (5461): 2185–95. Bibcode : 2000Sci ... 287.2185. . CiteSeerX 10.1.1.549.8639 . DOI : 10.1126 / science.287.5461.2185 . PMID 10731132 .   
  11. ^ Мейерсон, М .; Габриэль, S .; Гетц, Г. (2010). «Достижения в понимании геномов рака посредством секвенирования второго поколения». Природа Обзоры Генетики . 11 (10): 685–696. DOI : 10.1038 / nrg2841 . PMID 20847746 . 
  12. ^ Данхэм, I. Секвенирование генома . Энциклопедия наук о жизни, 2005. doi : 10.1038 / npg.els.0005378
  13. ^ a b c Вентер, Дж. К. «Стрельба по геному человека: личный взгляд». Энциклопедия наук о жизни, 2006.
  14. ^ a b Гибсон, Г. и Муза, С.В. Учебник по геномной науке . 3-е изд. Стр.84
  15. ^ a b c Уважаемый, PH Genome Mapping . Энциклопедия наук о жизни, 2005. DOI : 10.1038 / npg.els.0005353 .
  16. ^ Карл, V; и другие. (2009). «Секвенирование следующего поколения: от фундаментальных исследований к диагностике» . Клиническая химия . 55 (4): 41–47. DOI : 10,1373 / clinchem.2008.112789 . PMID 19246620 . 
  17. ^ Metzker, Michael L. (2010). «Технологии секвенирования - новое поколение» (PDF) . Nat Rev Genet . 11 (1): 31–46. CiteSeerX 10.1.1.719.3885 . DOI : 10.1038 / nrg2626 . PMID 19997069 .   
  18. ^ Roumpeka, Despoina D .; и другие. (2017). «Обзор инструментов биоинформатики для биоразведки на основе данных метагеномной последовательности» . Границы генетики . 8 : 23. DOI : 10,3389 / fgene.2017.00023 . PMC 5337752 . PMID 28321234 .  
  19. ^ Гу, Вэй; и другие. (2018). «Клиническое метагеномное секвенирование нового поколения для обнаружения патогенов» . Ежегодный обзор патологии: механизмы заболевания . 14 : 319–338. DOI : 10,1146 / annurev-pathmechdis-012418-012751 . PMC 6345613 . PMID 30355154 .  
  20. ^ Thoendel, Мэтью; и другие. (2017). «Влияние контаминирующей ДНК в наборах для амплификации всего генома, используемых для метагеномного секвенирования с целью диагностики инфекции» . Журнал клинической микробиологии . 55 (6): 1789–1801. DOI : 10.1128 / JCM.02402-16 . PMC 5442535 . PMID 28356418 .  

дальнейшее чтение

  • «Секвенирование дробовика достигает совершеннолетия» . Ученый . Проверено 31 декабря 2002 года .
  • «Секвенирование дробовиком обнаруживает наноорганизмы - зонд кислотного дренажа обнаруживает архей размером с неожиданный вирус» . SpaceRef.com . Проверено 23 декабря 2006 года .

внешние ссылки

Всеобщее достояние Эта статья включает материалы, являющиеся  общественным достоянием, из документа Национального центра биотехнологической информации : «Справочник NCBI» .

Источник « https://en.wikipedia.org/w/index.php?title=Shotgun_sequencing&oldid=1034191528 »