Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Теория секвенирования ДНК - это обширная работа, которая пытается заложить аналитические основы для определения порядка конкретных нуклеотидов в последовательности ДНК , также известной как секвенирование ДНК . Практические аспекты связаны с разработкой и оптимизацией проектов секвенирования (известных как "стратегическая геномика"), прогнозированием производительности проекта, устранением неполадок в результатах экспериментов, характеристикой таких факторов, как систематическая ошибка последовательности и влияние алгоритмов обработки программного обеспечения, а также сравнением различных методов секвенирования друг с другом. В этом смысле его можно рассматривать как отрасль системного проектирования или исследования операций.. Постоянный архив работ преимущественно математический, хотя численные расчеты часто проводятся и для конкретных задач. Теория секвенирования ДНК касается физических процессов, связанных с секвенированием ДНК, и ее не следует путать с теориями анализа результирующих последовательностей ДНК, например , выравнивания последовательностей . Публикации [1] иногда не проводят тщательного разграничения, но последние в первую очередь касаются алгоритмических проблем. Теория секвенирования основана на элементах математики , биологии и системной инженерии , поэтому она носит междисциплинарный характер. Предмет может быть изучен в контексте вычислительной биологии..

Теория и стратегии секвенирования [ править ]

Секвенирование как покрывающая проблема [ править ]

Все методы русле секвенирования ДНК полагаются на чтение небольших фрагментов ДНК и последующего восстановления этих данных , чтобы сделать вывод о исходной ДНК - мишени, либо с помощью сборки или выравнивания в качестве ссылки. Абстракции , общие для этих методов является то , что математической задачи о покрытии . [2] Например, можно представить себе линейный сегмент, представляющий цель, и последующий процесс, в котором меньшие сегменты «сбрасываются» в случайные места цели. Цель считается «упорядоченной», когда накапливается адекватное покрытие (например, когда не остается пробелов).

Абстрактные свойства покрытия изучаются математиками более века. [3] Однако прямое применение этих результатов, как правило, было невозможно. Математические решения в закрытой форме, особенно для вероятностных распределений, часто не поддаются оценке. То есть они требуют чрезмерно большого количества компьютерного времени для параметров, характерных для секвенирования ДНК . Конфигурация Стивенса - один из таких примеров. [4] Результаты, полученные с точки зрения чистой математики.также не учитывают факторы, которые действительно важны для секвенирования, например обнаруживаемое перекрытие при секвенировании фрагментов, двойную цепочку, краевые эффекты и множественность мишеней. Следовательно, развитие теории секвенирования шло в большей степени в соответствии с философией прикладной математики . В частности, он был ориентирован на проблемы и позволяет использовать приближения, моделирование и т. Д.

Раннее использование заимствовано из элементарной теории вероятностей [ править ]

Самый ранний результат можно найти непосредственно из элементарной теории вероятностей. Предположим, мы моделируем описанный выше процесс, принимая и как длину фрагмента и целевую длину, соответственно. Тогда вероятность «прикрыть» любое заданное место на цели одним конкретным фрагментом равна . (Это предполагает , что справедливо часто, но не для всех реальных случаев.) Таким образом, вероятность того, что один фрагмент не покроет заданное место на цели, составляет и для фрагментов. Таким образом, вероятность прикрыть заданное место на цели хотя бы одним осколком

Это уравнение было впервые использовано для характеристики библиотек плазмид [5], но оно может появиться в измененной форме. Для большинства проектов , так что с хорошей степенью приближения

где называется избыточностью . Обратите внимание на важность избыточности как представления среднего количества раз, когда позиция покрывается фрагментами. Также обратите внимание, что при рассмотрении процесса покрытия по всем позициям в цели эта вероятность идентична ожидаемому значению случайной переменной , части покрытия цели. Конечный результат,

остается широко используемым в качестве оценщика « обратной стороны конверта » и предсказывает, что охват для всех проектов развивается по универсальной кривой, которая является функцией только избыточности.

Теория Лендера-Уотермана [ править ]

В 1988 году Эрик Ландер и Майкл Уотерман опубликовали важную статью [6], в которой проблема покрытия рассматривалась с точки зрения пробелов. Хотя они сосредоточились на так называемой проблеме отображения , абстракция от секвенирования во многом такая же. Они предоставили ряд полезных результатов, которые были приняты в качестве стандартной теории с первых дней «крупномасштабного» секвенирования генома. [7] Их модель также использовалась при разработке проекта «Геном человека» и продолжает играть важную роль в секвенировании ДНК.

В конечном счете, основная цель проекта секвенирования - закрыть все пробелы, поэтому «перспектива пробелов» стала логической основой для разработки модели секвенирования. Одним из наиболее часто используемых результатов этой модели является ожидаемое количество контигов с учетом количества секвенированных фрагментов. Если пренебречь количеством последовательности, которая по существу «тратится впустую» из-за необходимости обнаруживать перекрытия, их теория дает

В 1995 году Роуч [8] опубликовал усовершенствования этой теории, что позволило применить ее к проектам секвенирования, целью которых было полное секвенирование целевого генома. Майкл Вендл и Боб Уотерстон [9] подтвердили на основе метода Стивенса [4]что обе модели дают аналогичные результаты при значительном количестве контигов, например, в проектах по картированию или секвенированию с низким покрытием. По мере того, как в 1990-е годы количество проектов по секвенированию увеличивалось, и проекты приближались к завершению, приближения с низким охватом становились недостаточными, и требовалась точная модель Роуча. Однако по мере того, как стоимость секвенирования упала, параметры проектов секвенирования стало легче напрямую проверять эмпирически, а интерес и финансирование стратегической геномики уменьшились.

Основные идеи теории Ландера – Уотермана привели к ряду дополнительных результатов для конкретных вариаций в методах картирования. [10] [11] [12] Однако технический прогресс сделал теории картирования в значительной степени устаревшими, за исключением организмов, отличных от хорошо изученных модельных организмов (например, дрожжей, мух, мышей и людей).

Стратегия парковки [ править ]

Стратегия парковки для последовательности напоминает процесс парковки автомобилей вдоль обочины. Каждый автомобиль - это секвенированный клон, а бордюр - геномная мишень. [13] Каждый секвенированный клон подвергается скринингу, чтобы убедиться, что секвенированные впоследствии клоны не перекрывают какой-либо ранее секвенированный клон. В этой стратегии нет лишних усилий по секвенированию. Однако, как и промежутки между припаркованными автомобилями, между секвенированными клонами накапливаются несеквенированные промежутки, длина которых меньше длины клона. Закрытие таких пробелов может потребовать значительных затрат.

Попарное конечное упорядочение [ править ]

В 1995 году Roach et al. [14] предложили и продемонстрировали с помощью моделирования обобщение набора стратегий, исследованных ранее Эдвардсом и Каски. [15] Этот метод полногеномного секвенирования стал чрезвычайно популярным, поскольку его отстаивала Celera и использовалась для секвенирования нескольких модельных организмов, прежде чем Celera применила его к человеческому геному. Сегодня в большинстве проектов секвенирования используется эта стратегия, которую часто называют парным секвенированием.

Достижения после проекта "Геном человека" [ править ]

Физические процессы и протоколы секвенирования ДНК продолжали развиваться, во многом благодаря достижениям в биохимических методах, инструментах и ​​методах автоматизации. В настоящее время существует широкий спектр проблем, которые решает секвенирование ДНК , включая метагеномику и медицинское (онкологическое) секвенирование . В этих сценариях есть важные факторы, которые классическая теория не учитывает. Недавняя работа была сосредоточена на устранении последствий некоторых из этих проблем. Уровень математики становится соразмерно более сложным.

Различные артефакты секвенирования с большими вставками [ править ]

Биологи разработали методы фильтрации часто повторяющихся, по существу, непоследовательных участков геномов. Эти процедуры важны для организмов, геномы которых состоят в основном из такой ДНК, например кукурузы. Они дают множество небольших островков секвенируемых продуктов ДНК. Вендл и Барбазук [16] предложили расширение теории Ландера – Уотермана для учета «пробелов» в цели из-за фильтрации и так называемого «краевого эффекта». Последнее представляет собой смещение выборки, зависящее от позиции, например, позиция терминальной базы имеет только шанс быть закрытой, в отличие от внутренней позиции. Ведь классическая теория Лендера – Уотермана по-прежнему дает хорошие прогнозы, но динамика меняется в сторону большей избыточности.

Современные методы секвенирования обычно секвенируют оба конца более крупного фрагмента, что обеспечивает информацию о связывании для сборки de novo и повышает вероятность выравнивания с эталонной последовательностью. Исследователи обычно считают, что более длинные данные (длина чтения) улучшают производительность для очень больших целей ДНК, и эта идея согласуется с предсказаниями моделей распределения. [17] Однако Вендл [18] показал, что более мелкие фрагменты обеспечивают лучшее покрытие небольших линейных мишеней, поскольку они уменьшают краевой эффект в линейных молекулах. Эти результаты имеют значение для секвенирования продуктов процедур фильтрации ДНК. Спаривание считывания и размер фрагмента, очевидно, имеют незначительное влияние на большие целевые классы целого генома.

Индивидуальное и популяционное секвенирование [ править ]

Секвенирование становится важным инструментом в медицине, например, в исследованиях рака. Здесь важна способность обнаруживать гетерозиготные мутации, и это может быть сделано только в том случае, если получена последовательность диплоидного генома . В новаторских попытках секвенирования людей Levy et al. [19] и Wheeler et al. , [20], которые секвенировали Крейга Вентера и Джима Уотсона , соответственно, обрисовали в общих чертах модели для покрытия обоих аллелей в геноме. Вендл и Уилсон [21] разработали более общую теорию, которая допускала произвольное количество покрытий каждого аллеля и произвольную плоидность.. Эти результаты указывают на общий вывод о том, что объем данных, необходимых для таких проектов, значительно выше, чем для традиционных гаплоидных проектов. Как правило, по крайней мере 30-кратная избыточность, то есть каждый нуклеотид, охватываемый в среднем 30 считываниями последовательности, в настоящее время является стандартом. [22] Однако требования могут быть даже больше, в зависимости от того, какие типы геномных событий необходимо обнаружить. Например, в так называемом «методе несогласованных пар считывания» вставки ДНК можно сделать вывод, если расстояние между парами считывания больше ожидаемого. Расчеты показывают, что необходимо примерно 50-кратное резервирование, чтобы избежать ложноположительных ошибок при пороге 1%. [23]

Появление секвенирования следующего поколения также сделало возможным крупномасштабное секвенирование популяции, например, проект « 1000 геномов», чтобы охарактеризовать различия в группах населения людей. В то время как общие вариации легко обнаруживаются, редкие вариации представляют собой проблему проектирования: слишком мало образцов со значительной избыточностью последовательностей рискуют не иметь варианта в группе образцов, но большие образцы с небольшим риском избыточности не охватывают вариант в наборе для чтения, который фактически находится в группа выборки. Вендл и Уилсон [24]сообщить простой набор правил оптимизации, которые максимизируют вероятность обнаружения для данного набора параметров. Например, для наблюдения редкого аллеля хотя бы дважды (чтобы исключить возможность, уникальную для отдельного человека) следует использовать чуть менее 4-кратную избыточность, независимо от размера выборки.

Метагеномное секвенирование [ править ]

Инструменты нового поколения теперь также позволяют секвенировать целые некультивируемые метагеномные сообщества. Сценарий последовательности здесь более сложен, и существуют различные способы создания теорий дизайна для данного проекта. Например, Stanhope [25] разработал вероятностную модель количества последовательностей, необходимых для получения по крайней мере одного контига заданного размера от каждого нового организма сообщества, в то время как Wendl et al. сообщил об анализе среднего размера контига или вероятности полного восстановления нового организма для данной редкости в сообществе. [26] И наоборот, Hooper et al. предложить полуэмпирическую модель, основанную на гамма-распределении . [27]

Ограничения [ править ]

Теории секвенирования ДНК часто предполагают, что определенные случайные переменные в модели независимы и одинаково распределены . Например, в теории Лендера – Уотермана предполагается, что секвенированный фрагмент имеет одинаковую вероятность покрытия каждой области генома, и все фрагменты считаются независимыми друг от друга. На самом деле, проекты секвенирования подвержены различным типам ошибок, включая различия в том, насколько хорошо регионы могут быть клонированы, аномалии секвенирования, отклонения в целевой последовательности (которая не является случайной), а также программно-зависимые ошибки и систематические ошибки. В целом теория хорошо согласуется с наблюдениями до тех пор, пока не будет получено достаточно данных, чтобы выявить скрытые предубеждения. [21]Типы смещений, связанных с лежащей в основе целевой последовательностью, особенно трудно моделировать, поскольку сама последовательность может быть неизвестна априори . Это представляет собой тип проблемы Catch-22 (логической) .

См. Также [ править ]

  • Вычислительная биология
  • Биоинформатика
  • Математическая биология
  • Счет Сулстона

Ссылки [ править ]

  1. ^ Уотерман, Майкл С. (1995). Введение в вычислительную биологию . Бока-Ратон: Чепмен и Холл / CRC. ISBN 978-0-412-99391-6.
  2. ^ Холл, П. (1988). Введение в теорию процессов покрытия . Нью-Йорк: Вили. ISBN 978-0-471-85702-0.
  3. ^ Соломон, Х. (1978). Геометрическая вероятность . Филадельфия: Общество промышленной и прикладной математики. ISBN 978-0-898-71025-0.
  4. ^ а б Стивенс WL (1939). «Решение геометрической задачи в вероятности». Летопись евгеники . 9 (4): 315–320. DOI : 10.1111 / j.1469-1809.1939.tb02216.x .
  5. Перейти ↑ Clarke L, Carbon J (1976). «Банк колоний, содержащий синтетические гибридные плазмиды Col-El, представляющие весь геном E. coli». Cell . 9 (1): 91–99. DOI : 10.1016 / 0092-8674 (76) 90055-6 . PMID 788919 . S2CID 2535372 .  
  6. Перейти ↑ Lander ES , Waterman MS (1988). «Геномное картирование путем снятия отпечатков пальцев случайных клонов: математический анализ». Геномика . 2 (3): 231–239. DOI : 10.1016 / 0888-7543 (88) 90007-9 . PMID 3294162 . 
  7. ^ Fleischmann RD; и другие. (1995). «Полногеномное случайное секвенирование и сборка Haemophilus influenzae Rd». Наука . 269 (5223): 496–512. Bibcode : 1995Sci ... 269..496F . DOI : 10.1126 / science.7542800 . PMID 7542800 . 
  8. ^ Roach JC (1995). «Случайное субклонирование» . Геномные исследования . 5 (5): 464–473. DOI : 10.1101 / gr.5.5.464 . PMID 8808467 . 
  9. Перейти ↑ Wendl MC , Waterston RH (2002). «Обобщенная модель разрывов для бактериального картирования отпечатков пальцев клонов искусственных хромосом и секвенирования дробовика» . Геномные исследования . 12 (12): 1943–1949. DOI : 10.1101 / gr.655102 . PMC 187573 . PMID 12466299 .  
  10. ^ Arratia R ; и другие. (1991). «Геномное картирование путем привязки случайных клонов: математический анализ». Геномика . 11 (4): 806–827. CiteSeerX 10.1.1.80.8788 . DOI : 10.1016 / 0888-7543 (91) 90004-X . PMID 1783390 .  
  11. ^ Порт E; и другие. (1995). «Геномное картирование по случайным клонам с концевыми характеристиками: математический анализ». Геномика . 26 (1): 84–100. CiteSeerX 10.1.1.74.4380 . DOI : 10.1016 / 0888-7543 (95) 80086-2 . PMID 7782090 .  
  12. ^ Zhang MQ, Марр TG (1993). «Картирование генома с помощью неслучайной привязки: дискретный теоретический анализ» . Труды Национальной академии наук . 90 (2): 600–604. Bibcode : 1993PNAS ... 90..600Z . DOI : 10.1073 / pnas.90.2.600 . PMC 45711 . PMID 8421694 .  
  13. ^ Роуч JC; и другие. (2000). «Парковочные стратегии для секвенирования генома» . Геномные исследования . 10 (7): 1020–1030. DOI : 10.1101 / gr.10.7.1020 . PMC 310895 . PMID 10899151 .  
  14. ^ Роуч JC, Бойсен С, Ван К, Гуд L (1995). «Парное секвенирование конца: единый подход к геномному картированию и секвенированию». Геномика . 26 (2): 345–353. DOI : 10.1016 / 0888-7543 (95) 80219-C . PMID 7601461 . CS1 maint: multiple names: authors list (link)
  15. ^ Эдвардс, А .; Каски, Т. (1991). Стратегии закрытия для случайного секвенирования ДНК . 3 . Компаньон к методам энзимологии. С. 41–47.
  16. ^ Wendl MC , Barbazuk WB (2005). «Расширение теории Лендера – Уотермана для секвенирования отфильтрованных библиотек ДНК» . BMC Bioinformatics . 6 : статья 245. DOI : 10,1186 / 1471-2105-6-245 . PMC 1280921 . PMID 16216129 .  
  17. Перейти ↑ Wendl MC (2006). «Моделирование занятости распределения покрытия для полногеномного секвенирования ДНК дробовика». Вестник математической биологии . 68 (1): 179–196. DOI : 10.1007 / s11538-005-9021-4 . PMID 16794926 . S2CID 23889071 .  
  18. Перейти ↑ Wendl MC (2006). «Общая теория покрытия для секвенирования ДНК дробовика» . Журнал вычислительной биологии . 13 (6): 1177–1196. DOI : 10,1089 / cmb.2006.13.1177 . PMID 16901236 . 
  19. ^ Леви S; и другие. (2007). «Диплоидная последовательность генома отдельного человека» . PLOS Биология . 5 (10): статья е254. DOI : 10.1371 / journal.pbio.0050254 . PMC 1964779 . PMID 17803354 .  
  20. ^ Уиллер DA; и другие. (2008). «Полный геном человека путем массового параллельного секвенирования ДНК» . Природа . 452 (7189): 872–876. Bibcode : 2008Natur.452..872W . DOI : 10,1038 / природа06884 . PMID 18421352 . 
  21. ^ a b Wendl MC , Wilson RK (2008). «Аспекты покрытия в медицинском секвенировании ДНК» . BMC Bioinformatics . 9 : Статья 239. DOI : 10,1186 / 1471-2105-9-239 . PMC 2430974 . PMID 18485222 .  
  22. ^ Ley TJ ; и другие. (2008). «Секвенирование ДНК цитогенетически нормального генома острого миелоидного лейкоза» . Природа . 456 (7218): 66–72. Bibcode : 2008Natur.456 ... 66L . DOI : 10,1038 / природа07485 . PMC 2603574 . PMID 18987736 .  
  23. Перейти ↑ Wendl MC , Wilson RK (2009). «Статистические аспекты различения структурных вариаций типа indel через выравнивание последовательностей ДНК» . BMC Genomics . 10 : статья 359. DOI : 10.1186 / 1471-2164-10-359 . PMC 2748092 . PMID 19656394 .  
  24. Перейти ↑ Wendl MC , Wilson RK (2009). «Теория обнаружения редких вариантов с помощью секвенирования ДНК» . BMC Genomics . 10 : статья 485. DOI : 10.1186 / 1471-2164-10-485 . PMC 2778663 . PMID 19843339 .  
  25. Перейти ↑ Stanhope SA (2010). «Занятость, моделирующая максимальные вероятности размера контигов и проектирование экспериментов по метагеномике» . PLOS ONE . 5 (7): статья e11652. Bibcode : 2010PLoSO ... 511652S . DOI : 10.1371 / journal.pone.0011652 . PMC 2912229 . PMID 20686599 .  
  26. ^ Wendl MC ; и другие. (2012). «Теории покрытия для секвенирования метагеномной ДНК, основанные на обобщении теоремы Стивенса» . Журнал математической биологии . 67 (5): 1141–1161. DOI : 10.1007 / s00285-012-0586-х . PMC 3795925 . PMID 22965653 .  
  27. ^ Хупер SD; и другие. (2010). «Оценка покрытия ДНК и численности в метагеномах с использованием гамма-приближения» . Биоинформатика . 26 (3): 295–301. DOI : 10.1093 / биоинформатики / btp687 . PMC 2815663 . PMID 20008478 .