2 Базовое кодирование , также называемое SOLiD ( секвенирование путем лигирования и обнаружения олигонуклеотидов ), представляет собой технологию секвенирования следующего поколения, разработанную Applied Biosystems и коммерчески доступную с 2008 года. Эти технологии генерируют сотни тысяч небольших считываний последовательностей за один раз. Хорошо известные примеры таких методов секвенирования ДНК включают пиросеквенирование 454(введена в 2005 г.), система Solexa (введена в 2006 г.) и система SOLiD (введена в 2007 г.). Эти методы снизили стоимость с 0,01 доллара на базу в 2004 году до почти 0,0001 доллара на базу в 2006 году и увеличили производительность секвенирования с 1 000 000 баз на машину в день в 2004 году до более чем 100 000 000 баз на машину в день в 2006 году.
Двухосновное кодирование основано на секвенировании лигирования, а не на секвенировании путем синтеза. [1] Однако вместо использования флуоресцентно меченых 9-мерных зондов, которые различают только 6 оснований, кодирование 2-х оснований использует преимущества флуоресцентно меченных 8-мерных зондов, которые различают два трех основных основных основания, но могут циклически повторяться аналогично методу Мацевича. , таким образом, можно получить более 6 пар оснований чтения (опубликовано 25-50 пар оснований, [2] 50 пар оснований в NCBI в феврале 2008 года). Кодировка с двумя базами позволяет читать каждую базу дважды, не выполняя двойную работу. [3] [4] [5] [6]
Общие особенности
Общие шаги, общие для многих из этих методов секвенирования следующего поколения, включают:
- Случайная фрагментация геномной ДНК
- Иммобилизация отдельных фрагментов ДНК на твердой подложке, такой как бусина или плоская твердая поверхность.
- Амплификация фрагментов ДНК на твердой поверхности с помощью ПЦР и создание колоний полимеразы [7]
- Секвенирование и последующий опрос in situ после каждого цикла с использованием флуоресцентного сканирования или хемилюминесценции. [8]
В 1988 году Whiteley et al. продемонстрировали использование лигирования флуоресцентно меченных олигонуклеотидов для обнаружения вариантов ДНК. [9] В 1995 году Мацевич [10] продемонстрировал повторное лигирование олигонуклеотидов для обнаружения смежных вариантов ДНК. В 2003 году Dressman et al. [11] продемонстрировали использование эмульсионной ПЦР для создания миллионов клонально амплифицированных гранул, на которых можно было проводить эти повторные анализы лигирования. В 2005 году Shendure et al. выполнили процедуру секвенирования, которая объединила методы Уайтли и Дрессмана, выполнив лигирование флуоресцентно меченых 9-мерных зондов с «8 вырожденными основаниями», которые различали различное основание в соответствии с меткой зонда и невырожденное основание. Этот процесс повторяли (без регенерации удлиняемого конца, как у Мацевича) с использованием идентичных праймеров, но с зондами с метками, которые идентифицировали различное невырожденное основание для считывания последовательности 6 п.н. в направлении 5-> 3 и считывания 7 п.н. в направлении 3-> 5.
Как это работает
В системе секвенирования SOLiD используются зонды с двойным базовым кодированием.
Основная химия резюмируется в следующих этапах: [12]
- Шаг 1. Подготовка библиотеки: этот шаг начинается с разделения геномной ДНК на небольшие фрагменты. Затем добавляются два разных адаптера (например, A1 и A2). Полученная библиотека содержит фрагменты ДНК-матрицы, которые помечены по одному адаптеру на каждом конце (A1-матрица-A2).
- Этап 2, ПЦР эмульсии: на этом этапе реакция ПЦР эмульсии (капли воды, суспендированные в масле) выполняется с использованием фрагментов ДНК из библиотеки, двух праймеров (P1 и P2), которые дополняют ранее использованные адаптеры (P1 с A1 и P2 с A2), другие компоненты реакции ПЦР и гранулы размером 1 мкм, соединенные с одним из праймеров (например, P1). сделайте разведение из библиотеки ДНК, чтобы максимизировать каплю, содержащую один фрагмент ДНК и одну гранулу, в одну каплю эмульсии.
В каждой капле матрица ДНК отжигается с гранулой, связанной с P1, со своей стороны A1. Затем ДНК-полимераза будет расширяться от P1, чтобы образовать комплементарную последовательность, что в конечном итоге приведет к получению шарика, обогащенного продуктами ПЦР из одной матрицы. После реакции ПЦР шаблоны денатурируются и отделяются от гранул. Dressman et al. Впервые описал эту технику в 2003 году.
- Шаг 3, обогащение бусинок: на практике только 30% бусинок имеют ДНК-мишень. Чтобы увеличить количество шариков с целевой ДНК, в раствор добавляют большие шарики из полистирола, покрытые А2. Таким образом, любой валик, содержащий удлиненные продукты, будет связывать полистироловый валик своим концом P2. Полученный комплекс будет отделен от нецелевых шариков и расплавится, чтобы отделить целевые шарики от полистирола. Этот шаг может увеличить пропускную способность этой системы с 30% до обогащения до 80% после обогащения.
После обогащения 3'-конец продуктов (конец P2) будет модифицирован, что сделает их способными к ковалентному связыванию на следующем этапе. Следовательно, продуктами этого этапа являются связанные с ДНК шарики с 3'-модификацией каждой цепи ДНК.
- Этап 4, нанесение шариков: на этом этапе продукты последнего этапа наносятся на предметное стекло. Бусинки прикрепляются к поверхности стекла случайным образом за счет ковалентных связей 3'-модифицированных бусинок и стекла.
- Этап 5, реакция секвенирования: как упоминалось ранее, в отличие от других методов следующего поколения, которые выполняют секвенирование посредством синтеза, двухосновное кодирование основано на секвенировании путем лигирования. Лигирование проводится с использованием специфических 8-мерных зондов:
Эти зонды имеют длину восемь оснований со свободной гидроксильной группой на 3'-конце, флуоресцентным красителем на 5'-конце и сайтом расщепления между пятым и шестым нуклеотидом. Первые два основания (начиная с 3'-конца) комплементарны секвенируемым нуклеотидам. Основания с 3 по 5 являются вырожденными и способны спариваться с любыми нуклеотидами в матричной последовательности. Основания 6-8 также вырождены, но отщепляются вместе с флуоресцентным красителем по мере продолжения реакции. Расщепление флуоресцентного красителя и оснований 6-8 оставляет свободную 5'-фосфатную группу, готовую для дальнейшего лигирования. Таким образом, позиции n + 1 и n + 2 правильно спарены по основаниям, за которыми следуют правильные пары n + 6 и n + 7 и т. Д. Состав оснований n + 3, n + 4 и n + 5 остается неопределенным до следующего раунды реакции секвенирования.
Этап секвенирования в основном состоит из пяти раундов, каждый из которых состоит примерно из 5-7 циклов (рис. 2). Каждый раунд начинается с добавления универсального праймера, комплементарного P1. Этот праймер имеет, например, n нуклеотидов, и его 5'-конец точно совпадает с 3'-концом P1. В каждом цикле добавляются 8-мерные зонды и лигируются в соответствии с их первым и вторым основаниями. Затем оставшиеся несвязанные зонды вымываются, измеряется флуоресцентный сигнал от связанного зонда, и связанный зонд расщепляется между его пятым и шестым нуклеотидом. Наконец, праймер и зонды сбрасываются для следующего раунда.
В следующем цикле новый универсальный праймер отжигает позицию n-1 (его 5'-конец совпадает с основанием точно перед 3'-концом P1), и последующие циклы повторяются так же, как и в первом цикле. Остальные три цикла будут выполнены с новыми универсальными праймерами отжига в положениях n-2, n-3 и n-4 относительно 3'-конца P1.
Полная реакция в пять раундов позволяет секвенировать примерно 25 пар оснований матрицы из P1.
- Шаг 6, Декодирование данных: для декодирования данных, представленных в виде цветов, мы должны сначала знать два важных фактора. Во-первых, мы должны знать, что каждый цвет обозначает две основы. Во-вторых, нам нужно знать одну из баз в последовательности: эта база включается в последовательность в последнем (пятом) раунде шага 5. Это известное основание является последним нуклеотидом 3'-конца известного P1. Следовательно, поскольку каждый цвет представляет два нуклеотида, в которых второе основание каждой динуклеотидной единицы составляет первое основание следующего динуклеотида, знание только одного основания в последовательности приведет нас к интерпретации всей последовательности (Рисунок 2). [13]
2 Рекомендации по базовому кодированию
На практике прямое преобразование считывания цвета в считывание базы не рекомендуется, поскольку в момент обнаружения ошибки в вызовах цвета это приведет к сдвигу кадра в вызовах базы. Чтобы наилучшим образом использовать свойства «исправления ошибок» двух базовых кодировок, лучше всего преобразовать вашу базовую эталонную последовательность в цветовое пространство. Существует одно недвусмысленное преобразование базовой эталонной последовательности в цветовое пространство, и хотя верно и обратное, преобразование может быть совершенно неточным, если есть какие-либо ошибки секвенирования. [14]
При сопоставлении считанных значений цветового пространства с эталоном цветового пространства можно правильно использовать правила кодирования с двумя базовыми значениями, в которых только соседние цветовые различия могут представлять истинный базовый полиморфизм. Прямое декодирование или перевод считываемых цветов в базы не может сделать это эффективно без других знаний.
В частности, этот метод является не средством исправления ошибок, а средством преобразования ошибок. Цветовое пространство преобразует ваш наиболее распространенный режим ошибок (одиночные ошибки измерения) в частоту, отличную от вашей наиболее распространенной формы вариации ДНК (SNP или единичные изменения основания). Эти единичные базовые изменения влияют на соседние цвета в цветовом пространстве. Существуют логические правила, которые помогают исправить соседние ошибки на «допустимые» и «недопустимые» смежные ошибки.
Можно оценить вероятность получения двух соседних ошибок при чтении 50 бит / с. Существует 49 способов внести смежные изменения в строку из 50 букв (чтение 50 бит). Существует 1225 способов внесения несмежных изменений в строку из 50 букв (50 на выбор 2). Проще говоря, если предположить, что ошибки полностью случайны (они обычно более часты в конце чтения), только 49 из 1225 ошибок будут кандидатами на роль SNP. Кроме того, только одна треть соседних ошибок может быть допустимой ошибкой в соответствии с известной маркировкой зондов, таким образом, доставляется только 16 из 1225 ошибок, которые могут быть кандидатами на SNP. Это особенно полезно для обнаружения SNP с низким охватом, поскольку снижает количество ложных срабатываний при низком охвате, Smith et al. [15]
Преимущества
Каждая база в этом методе секвенирования считывается дважды. Это изменяет цвет двух соседних вызовов цветового пространства, поэтому для неправильного вызова SNP необходимо неправильно назвать два соседних цвета. Из-за этого частота ошибочных вызовов SNP составляет порядка e ^ 2, где e - частота ошибок устройства.
Недостатки
При вызове базы одноцветные ошибочные вызовы вызывают ошибки в оставшейся части считывания. При вызове по протоколу SNP это можно исправить, что приведет к снижению частоты ошибок при вызове по протоколу SNP. Однако для упрощенной сборки de novo у вас останется исходный коэффициент ошибок устройства, который будет значительно выше, чем 0,06%, сообщаемое для вызовов SNP. Качественная фильтрация считываний может обеспечить считывания с более высокой необработанной точностью, которые при выравнивании для формирования цветовых контигов могут предоставлять эталонные последовательности, в которых можно лучше использовать 2 базовых кодирования. Гибридные сборки с другими технологиями также могут лучше использовать базовую кодировку 2.
Смотрите также
Рекомендации
- ^ Джей Шендур и др. (2005) Точное мультиплексное секвенирование полонии эволюционировавшего бактериального генома. Наука 309 (5741), 1728 - 1732 гг.
- ^ Последовательность и структурные вариации в геноме человека, выявленные короткочитаемым, массово параллельным секвенированием лигирования с использованием двухосновного кодирования. McKernan KJ, Peckham HE, Costa GL, McLaughlin SF, Fu Y, Tsung EF, Clouser CR, Duncan C, Ichikawa JK, Lee CC, Zhang Z, Ranade SS, Dimalanta ET, Hyland FC, Sokolsky TD, Zhang L, Sheridan A , Фу Х, Хендриксон К.Л., Ли Б., Котлер Л., Стюарт Дж. Р., Малек Дж. А., Мэннинг Дж. М., Антипова А. А., Перес Д. С., Мур М. П., Хаясибара К. К., Лион М. Р., Бодуан Р. Э., Коулман Б. Е., Лаптевич М. В., Санникандро А. Доктор медицины, Готтимуккала Р.К., Ян С., Бафна В., Башир А., Макбрайд А., Алкан С., Кидд Дж. М., Эйхлер Э., Риз М. Г., Де Ла Вега FM, Бланшар А. П.. Genome Res. 2009 сентябрь; 19 (9): 1527-41. Epub 2009 22 июня.
- ^ Патент: реагенты, методы и библиотеки для секвенирования на основе шариков
- ↑ Статья: Карта положения нуклеосом C. elegans с высоким разрешением показывает отсутствие универсального ...
- ^ Статья: Профилирование транскриптома стволовых клеток с помощью массового секвенирования мРНК
- ^ Быстрое профилирование мутаций всего генома с использованием технологий секвенирования следующего поколения, Genome Research, 2008 18: 1638-1642
- ^ Четверин, NAR, 1993, Vol.21, № 10 2349-2353
- ^ МЭТЬЮ Э. ХАДСОН (2008) Прорыв в секвенировании для геномной экологии и эволюционной биологии. Ресурсы по молекулярной экологии 8 (1), 3–17
- ^ Патент Уайтли США номер 4883750
- ^ Патент США Мачевич № 5,750,341
- ^ Преобразование отдельных молекул ДНК в флуоресцентные магнитные частицы для обнаружения и подсчета генетических вариаций, PNAS 22 июля 2004 г. 100 шт. 15, 8817-8822
- ^ Прикладные биосистемы
- ^ Техническое резюме: ABI SOLiD (Seq. Oligo Ligation / Detection) - SEQanswers
- ^ [1] Пример цветового пространства для FastQ
- ^ Смит и др., Genome Research 2008 18: 1638-1642