2 базовая кодировка

2 Базовое кодирование , также называемое SOLiD ( секвенирование путем лигирования и обнаружения олигонуклеотидов ), представляет собой технологию секвенирования следующего поколения, разработанную Applied Biosystems и коммерчески доступную с 2008 года. Эти технологии генерируют сотни тысяч небольших считываний последовательностей за один раз. Хорошо известные примеры таких методов секвенирования ДНК включают пиросеквенирование 454(введена в 2005 г.), система Solexa (введена в 2006 г.) и система SOLiD (введена в 2007 г.). Эти методы снизили стоимость с 0,01 доллара на базу в 2004 году до почти 0,0001 доллара на базу в 2006 году и увеличили производительность секвенирования с 1 000 000 баз на машину в день в 2004 году до более чем 100 000 000 баз на машину в день в 2006 году.

Двухбазовая схема кодирования. При двухбазовом кодировании каждой уникальной паре оснований на 3'-конце зонда назначается один из четырех возможных цветов. Например, «AA» назначается синему, «AC» - зеленому и так далее для всех 16 уникальных пар. Во время секвенирования каждая база в шаблоне секвенируется дважды, и полученные данные декодируются по этой схеме.

Двухосновное кодирование основано на секвенировании лигирования, а не на секвенировании путем синтеза. ^[1] Однако вместо использования флуоресцентно меченых 9-мерных зондов, которые различают только 6 оснований, кодирование 2-х оснований использует преимущества флуоресцентно меченных 8-мерных зондов, которые различают два трех основных основных основания, но могут циклически повторяться аналогично методу Мацевича. , таким образом, можно получить более 6 пар оснований чтения (опубликовано 25-50 пар оснований, ^[2] 50 пар оснований в NCBI в феврале 2008 года). Кодировка с двумя базами позволяет читать каждую базу дважды, не выполняя двойную работу. ^[3]^[4]^[5]^[6]

Общие особенности

Общие шаги, общие для многих из этих методов секвенирования следующего поколения, включают:

Случайная фрагментация геномной ДНК
Иммобилизация отдельных фрагментов ДНК на твердой подложке, такой как бусина или плоская твердая поверхность.
Амплификация фрагментов ДНК на твердой поверхности с помощью ПЦР и создание колоний полимеразы ^[7]
Секвенирование и последующий опрос in situ после каждого цикла с использованием флуоресцентного сканирования или хемилюминесценции. ^[8]

В 1988 году Whiteley et al. продемонстрировали использование лигирования флуоресцентно меченных олигонуклеотидов для обнаружения вариантов ДНК. ^[9] В 1995 году Мацевич ^[10] продемонстрировал повторное лигирование олигонуклеотидов для обнаружения смежных вариантов ДНК. В 2003 году Dressman et al. ^[11] продемонстрировали использование эмульсионной ПЦР для создания миллионов клонально амплифицированных гранул, на которых можно было проводить эти повторные анализы лигирования. В 2005 году Shendure et al. выполнили процедуру секвенирования, которая объединила методы Уайтли и Дрессмана, выполнив лигирование флуоресцентно меченых 9-мерных зондов с «8 вырожденными основаниями», которые различали различное основание в соответствии с меткой зонда и невырожденное основание. Этот процесс повторяли (без регенерации удлиняемого конца, как у Мацевича) с использованием идентичных праймеров, но с зондами с метками, которые идентифицировали различное невырожденное основание для считывания последовательности 6 п.н. в направлении 5-> 3 и считывания 7 п.н. в направлении 3-> 5.

Как это работает

В системе секвенирования SOLiD используются зонды с двойным базовым кодированием.

Основная химия резюмируется в следующих этапах: ^[12]

- Шаг 1. Подготовка библиотеки: этот шаг начинается с разделения геномной ДНК на небольшие фрагменты. Затем добавляются два разных адаптера (например, A1 и A2). Полученная библиотека содержит фрагменты ДНК-матрицы, которые помечены по одному адаптеру на каждом конце (A1-матрица-A2).

- Этап 2, ПЦР эмульсии: на этом этапе реакция ПЦР эмульсии (капли воды, суспендированные в масле) выполняется с использованием фрагментов ДНК из библиотеки, двух праймеров (P1 и P2), которые дополняют ранее использованные адаптеры (P1 с A1 и P2 с A2), другие компоненты реакции ПЦР и гранулы размером 1 мкм, соединенные с одним из праймеров (например, P1). сделайте разведение из библиотеки ДНК, чтобы максимизировать каплю, содержащую один фрагмент ДНК и одну гранулу, в одну каплю эмульсии.

В каждой капле матрица ДНК отжигается с гранулой, связанной с P1, со своей стороны A1. Затем ДНК-полимераза будет расширяться от P1, чтобы образовать комплементарную последовательность, что в конечном итоге приведет к получению шарика, обогащенного продуктами ПЦР из одной матрицы. После реакции ПЦР шаблоны денатурируются и отделяются от гранул. Dressman et al. Впервые описал эту технику в 2003 году.

- Шаг 3, обогащение бусинок: на практике только 30% бусинок имеют ДНК-мишень. Чтобы увеличить количество шариков с целевой ДНК, в раствор добавляют большие шарики из полистирола, покрытые А2. Таким образом, любой валик, содержащий удлиненные продукты, будет связывать полистироловый валик своим концом P2. Полученный комплекс будет отделен от нецелевых шариков и расплавится, чтобы отделить целевые шарики от полистирола. Этот шаг может увеличить пропускную способность этой системы с 30% до обогащения до 80% после обогащения.

После обогащения 3'-конец продуктов (конец P2) будет модифицирован, что сделает их способными к ковалентному связыванию на следующем этапе. Следовательно, продуктами этого этапа являются связанные с ДНК шарики с 3'-модификацией каждой цепи ДНК.

- Этап 4, нанесение шариков: на этом этапе продукты последнего этапа наносятся на предметное стекло. Бусинки прикрепляются к поверхности стекла случайным образом за счет ковалентных связей 3'-модифицированных бусинок и стекла.

- Этап 5, реакция секвенирования: как упоминалось ранее, в отличие от других методов следующего поколения, которые выполняют секвенирование посредством синтеза, двухосновное кодирование основано на секвенировании путем лигирования. Лигирование проводится с использованием специфических 8-мерных зондов:

Эти зонды имеют длину восемь оснований со свободной гидроксильной группой на 3'-конце, флуоресцентным красителем на 5'-конце и сайтом расщепления между пятым и шестым нуклеотидом. Первые два основания (начиная с 3'-конца) комплементарны секвенируемым нуклеотидам. Основания с 3 по 5 являются вырожденными и способны спариваться с любыми нуклеотидами в матричной последовательности. Основания 6-8 также вырождены, но отщепляются вместе с флуоресцентным красителем по мере продолжения реакции. Расщепление флуоресцентного красителя и оснований 6-8 оставляет свободную 5'-фосфатную группу, готовую для дальнейшего лигирования. Таким образом, позиции n + 1 и n + 2 правильно спарены по основаниям, за которыми следуют правильные пары n + 6 и n + 7 и т. Д. Состав оснований n + 3, n + 4 и n + 5 остается неопределенным до следующего раунды реакции секвенирования.

Этап секвенирования в основном состоит из пяти раундов, каждый из которых состоит примерно из 5-7 циклов (рис. 2). Каждый раунд начинается с добавления универсального праймера, комплементарного P1. Этот праймер имеет, например, n нуклеотидов, и его 5'-конец точно совпадает с 3'-концом P1. В каждом цикле добавляются 8-мерные зонды и лигируются в соответствии с их первым и вторым основаниями. Затем оставшиеся несвязанные зонды вымываются, измеряется флуоресцентный сигнал от связанного зонда, и связанный зонд расщепляется между его пятым и шестым нуклеотидом. Наконец, праймер и зонды сбрасываются для следующего раунда.

В следующем цикле новый универсальный праймер отжигает позицию n-1 (его 5'-конец совпадает с основанием точно перед 3'-концом P1), и последующие циклы повторяются так же, как и в первом цикле. Остальные три цикла будут выполнены с новыми универсальными праймерами отжига в положениях n-2, n-3 и n-4 относительно 3'-конца P1.

Полная реакция в пять раундов позволяет секвенировать примерно 25 пар оснований матрицы из P1.

- Шаг 6, Декодирование данных: для декодирования данных, представленных в виде цветов, мы должны сначала знать два важных фактора. Во-первых, мы должны знать, что каждый цвет обозначает две основы. Во-вторых, нам нужно знать одну из баз в последовательности: эта база включается в последовательность в последнем (пятом) раунде шага 5. Это известное основание является последним нуклеотидом 3'-конца известного P1. Следовательно, поскольку каждый цвет представляет два нуклеотида, в которых второе основание каждой динуклеотидной единицы составляет первое основание следующего динуклеотида, знание только одного основания в последовательности приведет нас к интерпретации всей последовательности (Рисунок 2). ^[13]

2 Рекомендации по базовому кодированию

На практике прямое преобразование считывания цвета в считывание базы не рекомендуется, поскольку в момент обнаружения ошибки в вызовах цвета это приведет к сдвигу кадра в вызовах базы. Чтобы наилучшим образом использовать свойства «исправления ошибок» двух базовых кодировок, лучше всего преобразовать вашу базовую эталонную последовательность в цветовое пространство. Существует одно недвусмысленное преобразование базовой эталонной последовательности в цветовое пространство, и хотя верно и обратное, преобразование может быть совершенно неточным, если есть какие-либо ошибки секвенирования. ^[14]

При сопоставлении считанных значений цветового пространства с эталоном цветового пространства можно правильно использовать правила кодирования с двумя базовыми значениями, в которых только соседние цветовые различия могут представлять истинный базовый полиморфизм. Прямое декодирование или перевод считываемых цветов в базы не может сделать это эффективно без других знаний.

В частности, этот метод является не средством исправления ошибок, а средством преобразования ошибок. Цветовое пространство преобразует ваш наиболее распространенный режим ошибок (одиночные ошибки измерения) в частоту, отличную от вашей наиболее распространенной формы вариации ДНК (SNP или единичные изменения основания). Эти единичные базовые изменения влияют на соседние цвета в цветовом пространстве. Существуют логические правила, которые помогают исправить соседние ошибки на «допустимые» и «недопустимые» смежные ошибки.

Можно оценить вероятность получения двух соседних ошибок при чтении 50 бит / с. Существует 49 способов внести смежные изменения в строку из 50 букв (чтение 50 бит). Существует 1225 способов внесения несмежных изменений в строку из 50 букв (50 на выбор 2). Проще говоря, если предположить, что ошибки полностью случайны (они обычно более часты в конце чтения), только 49 из 1225 ошибок будут кандидатами на роль SNP. Кроме того, только одна треть соседних ошибок может быть допустимой ошибкой в соответствии с известной маркировкой зондов, таким образом, доставляется только 16 из 1225 ошибок, которые могут быть кандидатами на SNP. Это особенно полезно для обнаружения SNP с низким охватом, поскольку снижает количество ложных срабатываний при низком охвате, Smith et al. ^[15]

Преимущества

Каждая база в этом методе секвенирования считывается дважды. Это изменяет цвет двух соседних вызовов цветового пространства, поэтому для неправильного вызова SNP необходимо неправильно назвать два соседних цвета. Из-за этого частота ошибочных вызовов SNP составляет порядка e ^ 2, где e - частота ошибок устройства.

Недостатки

При вызове базы одноцветные ошибочные вызовы вызывают ошибки в оставшейся части считывания. При вызове по протоколу SNP это можно исправить, что приведет к снижению частоты ошибок при вызове по протоколу SNP. Однако для упрощенной сборки de novo у вас останется исходный коэффициент ошибок устройства, который будет значительно выше, чем 0,06%, сообщаемое для вызовов SNP. Качественная фильтрация считываний может обеспечить считывания с более высокой необработанной точностью, которые при выравнивании для формирования цветовых контигов могут предоставлять эталонные последовательности, в которых можно лучше использовать 2 базовых кодирования. Гибридные сборки с другими технологиями также могут лучше использовать базовую кодировку 2.