Из Википедии, свободной энциклопедии
  (Перенаправлено из эволюционной модели )
Перейти к навигации Перейти к поиску

Был предложен ряд различных марковских моделей эволюции последовательности ДНК . Эти модели замещения различаются параметрами, используемыми для описания скоростей, с которыми один нуклеотид заменяет другой в ходе эволюции. Эти модели часто используются в молекулярно-филогенетическом анализе . В частности, они используются при вычислении вероятности дерева (в байесовском подходе и подходе максимального правдоподобия к оценке дерева), и они используются для оценки эволюционного расстояния между последовательностями на основе наблюдаемых различий между последовательностями.

Введение [ править ]

Эти модели являются феноменологическим описанием эволюции ДНК как цепочки из четырех дискретных состояний. Эти марковские модели не описывают явно ни механизм мутации, ни действие естественного отбора. Скорее они описывают относительную скорость различных изменений. Например, мутационные смещения и очищающий отбор в пользу консервативных изменений, вероятно, оба ответственны за относительно высокую скорость переходов по сравнению с трансверсиями в развивающихся последовательностях. Однако модель Кимуры (K80), описанная ниже, пытается только уловить эффект обеих сил в параметре, который отражает относительную скорость переходов к трансверсиям.

Эволюционный анализ последовательностей проводится в самых разных временных масштабах. Таким образом, эти модели удобно выражать в терминах мгновенных скоростей изменения между различными состояниями ( матрицы Q ниже). Если нам дано начальное (наследственное) состояние в одной позиции, Q- матрица модели и длина ветви, выражающая ожидаемое количество изменений, которые должны произойти с момента предка, то мы можем вывести вероятность того, что дочерняя последовательность будет иметь каждый из четырех состояния. Математические детали этого преобразования от скорости матрицы к матрице вероятности описаны в математике моделей замещения раздела в модели замещениястраница. Выражая модели в терминах мгновенных скоростей изменений, мы можем избежать оценки большого количества параметров для каждой ветви филогенетического дерева (или каждого сравнения, если анализ включает множество парных сравнений последовательностей).

Модели, описанные на этой странице, описывают эволюцию отдельного сайта в рамках набора последовательностей. Они часто используются для анализа эволюции всего локуса , делая упрощающее предположение, что разные сайты развиваются независимо и одинаково распределены . Это предположение может быть оправдано, если можно предположить, что объекты развиваются нейтрально . Если первичный эффект естественного отбора на эволюцию последовательностей заключается в ограничении некоторых сайтов, то можно использовать модели межсайтовой гетерогенности по скорости. Этот подход позволяет оценить только одну матрицу относительных скоростей замещения и другой набор параметров, описывающих дисперсию общей скорости замещения по сайтам.

Эволюция ДНК как цепь Маркова с непрерывным временем [ править ]

Цепи Маркова с непрерывным временем [ править ]

Цепи Маркова с непрерывным временем имеют обычные переходные матрицы, которые, кроме того, параметризованы временем ,. В частности, если есть состояния, то матрица перехода

где каждая отдельная запись относится к вероятности того, что состояние изменится на состояние со временем .

Пример: мы хотели бы смоделировать процесс замены в последовательностях ДНК ( например, Джакса – Кантора , Кимуры и т. Д. ) В непрерывном режиме времени. Соответствующие матрицы переходов будут выглядеть так:

где верхний левый и нижний правый блоки 2 × 2 соответствуют вероятностям перехода, а верхний правый и нижний левый блоки 2 × 2 соответствуют вероятностям трансверсии .

Предположение: если в какой-то момент цепь Маркова находится в состоянии , то вероятность того, что в какой- то момент она будет в состоянии, зависит только от , и . Это позволяет нам записать эту вероятность как .

Теорема. Матрицы переходов с непрерывным временем удовлетворяют:

Примечание: здесь возможна путаница между двумя значениями слова « переход» . (i) В контексте цепей Маркова переход - это общий термин для перехода между двумя состояниями. (ii) В контексте нуклеотидных изменений в последовательностях ДНК переход - это особый термин для обмена между двумя пуринами (A ↔ G) или двумя пиримидинами (C ↔ T) (дополнительные сведения см. в статье о переходах в генетике ). Напротив, обмен между одним пурином и одним пиримидином называется трансверсией .

Вывод динамики замещения [ править ]

Рассмотрим последовательность ДНК фиксированной длины m, эволюционирующую во времени за счет замены оснований. Предположим, что процессы, за которыми следуют m узлов, являются марковскими независимыми, одинаково распределенными и что процесс постоянен во времени. Для конкретного сайта пусть

- набор возможных состояний сайта, и

их соответствующие вероятности во времени . Для двух различных , позвольте быть скоростью перехода из состояния в состояние . Аналогичным образом , для любого , пусть суммарной скорости изменения от В

Изменения в распределении вероятностей для малых приращений времени даются выражением

Другими словами (на частотном языке), частота «s» в определенный момент времени равна частоте «s» во времени минус частота потерянных «s» плюс частота вновь созданных «s».

Аналогично для вероятностей , и . Эти уравнения можно компактно записать как

где

называется матрицей ставок . Обратите внимание, что по определению сумма записей в каждой строке равна нулю. Это следует из того

Для стационарного процесса , не зависящего от времени t , это дифференциальное уравнение может быть решено. Первый,

где обозначает экспоненту матрицы . Как результат,

Эргодичность [ править ]

Если цепь Маркова неприводима , т. Е. Если всегда можно перейти из состояния в состояние (возможно, за несколько шагов), то она также эргодична . В результате оно имеет уникальное стационарное распределение , которое соответствует доле времени, проведенного в состоянии после того, как цепь Маркова проработала бесконечное количество времени. В эволюции ДНК, в предположении общего процесса для каждого сайта, стационарные частоты соответствуют равновесным базовым композициям. В самом деле, обратите внимание, что, поскольку стационарное распределение удовлетворяет , мы видим, что когда текущее распределение является стационарным, мы имеем

Другими словами, частоты не меняются.

Обратимость времени [ править ]

Определение : Стационарный марковский процесс обратим во времени, если (в установившемся состоянии) величина изменения от состояния до равна величине изменения от до (хотя эти два состояния могут возникать с разными частотами). Это означает, что:

Не все стационарные процессы обратимы, однако наиболее часто используемые модели эволюции ДНК предполагают обратимость во времени, что считается разумным предположением.

В предположении обратимости времени let легко увидеть, что:

Определение Симметричный член называется взаимозаменяемостью между состояниями и . Другими словами, это доля частоты состояния, которая является результатом переходов из состояния в состояние .

Следствие 12 недиагональных элементов матрицы скорости (обратите внимание, что недиагональные элементы определяют диагональные элементы, так как строки суммы равны нулю) могут быть полностью определены 9 числами; это: 6 членов взаимозаменяемости и 3 стационарные частоты (так как сумма стационарных частот равна 1).

Масштабирование длин ветвей [ править ]

Сравнивая существующие последовательности, можно определить степень расхождения последовательностей. Это необработанное измерение расхождения предоставляет информацию о количестве изменений, произошедших на пути, разделяющем последовательности. Простой подсчет различий (The расстояние Хэмминга ) между последовательностями часто недооценивают количество замещения из - за многократных ударов (см homoplasy). Пытаться оценить точное количество произошедших изменений сложно и обычно не требуется. Вместо этого длина ветвей (и длина пути) в филогенетическом анализе обычно выражается в ожидаемом количестве изменений на сайт. Длина пути - это произведение продолжительности пути во времени и средней скорости замен. Хотя их продукт можно оценить, скорость и время невозможно определить по расхождению последовательностей.

Описания матриц ставок на этой странице точно отражают относительную величину различных замен, но эти матрицы ставок не масштабируются таким образом, что длина ветви, равная 1, дает одно ожидаемое изменение. Это масштабирование может быть выполнено путем умножения каждого элемента матрицы на один и тот же коэффициент или просто путем масштабирования длин ветвей. Если мы используем β для обозначения коэффициента масштабирования и ν для обозначения длины ветви, измеренной в ожидаемом количестве замен на сайт, тогда βν используется в формулах вероятности перехода ниже вместо μ t . Обратите внимание, что ν - это параметр, который оценивается по данным, и называется длиной ветви, в то время как β - это просто число, которое можно вычислить из матрицы скорости (это не отдельный бесплатный параметр).

Значение β можно найти, установив ожидаемую скорость потока состояний равной 1. Диагональные элементы матрицы скорости ( Q- матрицы) представляют -1 кратную скорость выхода из каждого состояния. Для моделей с обратимым во времени мы знаем частоты равновесного состояния (это просто значение параметра π i для состояния i ). Таким образом, мы можем найти ожидаемую скорость изменения, вычислив сумму потоков из каждого состояния, взвешенную по доле сайтов, которые, как ожидается, будут в этом классе. Установка β равной величине, обратной этой сумме, гарантирует, что масштабируемый процесс будет иметь ожидаемый поток 1:

Например, в Jukes-Cantor коэффициент масштабирования будет 4 / (3μ), потому что скорость выхода из каждого состояния составляет 3μ / 4 .

Наиболее распространенные модели эволюции ДНК [ править ]

Модель JC69 (Джукс и Кантор, 1969) [ править ]

JC69, модель Джукса и Кантора 1969 года [1], является простейшей моделью замещения . Есть несколько предположений. Он предполагает одинаковые базовые частоты и одинаковые частоты мутаций . Таким образом, единственным параметром этой модели является общий коэффициент замещения. Как упоминалось ранее, эта переменная становится постоянной, когда мы нормализуем среднюю скорость до 1.

Вероятность перехода от начального состояния к конечному как функция длины ветви ( ) для JC69. Красная кривая: состояния нуклеотидов и разные. Синяя кривая: начальное и конечное состояния одинаковы. По прошествии длительного времени вероятности стремятся к частотам равновесия нуклеотидов (0,25: пунктирная линия).

Когда длина ветви, измеряется в ожидаемом количестве изменений на сайт, тогда:

Стоит отметить, что то , что обозначает сумму любого столбца (или строки) матрицы, умноженную на время и, таким образом, означает ожидаемое количество замен во времени (длительность ветвления) для каждого конкретного сайта (на сайт), когда скорость замены равна .

Учитывая долю сайтов, которые различаются между двумя последовательностями, оценка Джукса-Кантора эволюционного расстояния (с точки зрения ожидаемого числа изменений) между двумя последовательностями дается выражением

В этой формуле часто называют -дистанцией. Это достаточный статистический показатель для расчета поправки на расстояние Джукса-Кантора, но его недостаточно для расчета эволюционного расстояния в более сложных моделях, которые следуют ниже (также обратите внимание, что используемые в последующих формулах не идентичны « -дистанции») .

Модель K80 (Kimura 1980) [ править ]

K80, модель Кимуры 1980 [2], часто называемая двухпараметрической моделью Кимуры (или моделью K2P ), различает переходы ( то есть от пурина к пурину или , то есть от пиримидина к пиримидину) и трансверсии (от пурина к пиримидин или наоборот). В первоначальном описании модели Кимурой α и β использовались для обозначения скоростей этих типов замен, но теперь более распространено устанавливать скорость трансверсий на 1 и использовать κ для обозначения отношения скорости перехода / трансверсии (как делается ниже). Модель K80 предполагает, что все базы одинаковы ( ).

Скорость матрица , столбцы , , и , соответственно.

Двухпараметрическое расстояние Кимуры определяется как:

где p - доля сайтов, показывающих переходные различия, а q - доля сайтов, показывающих трансверсионные различия.

Модель K81 (Kimura 1981) [ править ]

K81, то Кимура 1 981 модель, [3] часто называют три модели параметра Кимуров (модель K3P) или Кимура три типа замещения (K3ST) моделью, имеют различные тарифы для переходов и два различных типа трансверсий . Два типа трансверсии - это те, которые сохраняют слабые / сильные свойства нуклеотидов (т. Е. И , обозначаются символом [3] ), и те, которые сохраняют амино / кето-свойства нуклеотидов (то есть, и , обозначаются символом [3 ] ). Модель K81 предполагает, что все равновесные базовые частоты равны (т. Е. ).

Скорость матрица , столбцы , , и , соответственно.

Модель K81 используется гораздо реже, чем модель K80 (K2P) для оценки расстояния, и она редко является наиболее подходящей моделью в филогенетике максимального правдоподобия. Несмотря на эти факты, модель K81 продолжала изучаться в контексте математической филогенетики. [4] [5] [6] Одним из важных свойств является способность выполнять преобразование Адамара, предполагая, что шаблоны сайтов были сгенерированы на дереве с нуклеотидами, эволюционирующими в рамках модели K81. [7] [8] [9]

При использовании в контексте филогенетики преобразование Адамара обеспечивает элегантное и полностью обратимое средство для вычисления ожидаемых частот паттернов сайтов с учетом набора длин ветвей (или наоборот). В отличие от многих вычислений максимального правдоподобия, относительные значения для , и могут варьироваться в зависимости от ветви, и преобразование Адамара может даже предоставить свидетельство того, что данные не соответствуют дереву. Преобразование Адамара также можно комбинировать с широким спектром методов для учета неоднородности скорости между сайтами [10], используя непрерывные распределения, а не дискретные приближения, обычно используемые в филогенетике максимального правдоподобия [11](хотя нужно пожертвовать обратимостью преобразования Адамара, чтобы использовать определенные распределения неоднородности скорости между сайтами [10] ).

Модель F81 (Felsenstein 1981) [ править ]

F81, модель Фельзенштейна 1981 г. [12], является расширением модели JC69, в которой базовые частоты могут изменяться от 0,25 ( )

Матрица оценок:

Когда длина ветви, ν, измеряется в ожидаемом количестве изменений на сайт, тогда:

Модель HKY85 (Hasegawa, Kishino и Yano 1985) [ править ]

HKY85, модель Hasegawa, Kishino и Yano 1985, [13] может рассматриваться как объединение расширений, сделанных в моделях Kimura80 и Felsenstein81. А именно, он различает скорость переходов и трансверсий (с использованием параметра κ) и допускает неравные базовые частоты ( ). [Фельзенштейн описал аналогичную (но не эквивалентную) модель в 1984 году, используя другую параметризацию; [14] эта последняя модель упоминается как модель F84. [15] ]

Матрица ставок

Если мы выразим длину ветви ν через ожидаемое количество изменений на сайте, тогда:

а формула для других комбинаций состояний может быть получена путем подстановки соответствующих базовых частот.

Модель Т92 (Тамура 1992) [ править ]

T92, модель Тамуры 1992 [16], представляет собой математический метод, разработанный для оценки количества нуклеотидных замен на сайт между двумя последовательностями ДНК путем расширения двухпараметрического метода Кимуры (1980) на случай, когда существует систематическая ошибка содержания G + C. . Этот метод будет полезен при наличии сильных смещений трансверсии перехода и содержания G + C, как в случае митохондриальной ДНК дрозофилы . [16]

T92 включает в себя один составной параметр базовой частоты (также отмечен )

Поскольку T92 перекликается с вторым правилом четности Чаргаффа - спаривающиеся нуклеотиды имеют одинаковую частоту на одной цепи ДНК, G и C с одной стороны, и A и T с другой стороны - из этого следует, что четыре базовые частоты могут быть выражены как функция

и

Матрица ставок

Эволюционное расстояние между двумя последовательностями ДНК согласно этой модели определяется выражением

где и - содержание G + C ( ).

Модель TN93 (Тамура и Ней 1993) [ править ]

TN93, модель Тамуры и Нея 1993, [17] различает два разных типа перехода ; ie ( ) может иметь скорость, отличную от ( ). Предполагается, что все трансверсии происходят с одинаковой скоростью, но эта скорость может отличаться от обеих скоростей переходов.

TN93 также допускает неравные базовые частоты ( ).

Матрица ставок

Модель GTR (Tavaré 1986) [ править ]

ОТО, Обобщенная обратимая во времени модель Таваре 1986, [18], является наиболее общей нейтральной, независимой, конечной моделью с обратимой во времени возможной. Впервые он был описан в общей форме Саймоном Таваре в 1986 году [18].

Параметры ОТО состоят из вектора равновесной базовой частоты , задающего частоту, с которой каждое основание встречается в каждом узле, и матрицы скоростей

Где

параметры скорости перехода.

Следовательно, ОТО (для четырех символов, как это часто бывает в филогенетике) требует 6 параметров скорости замещения, а также 4 параметра равновесной базовой частоты. Однако обычно это устраняется до 9 параметров плюс общее количество замен в единицу времени. При измерении времени в подстановках ( = 1) остается всего 8 свободных параметров.

В общем, чтобы вычислить количество параметров, нужно подсчитать количество записей над диагональю в матрице, то есть для n значений признаков на сайт , а затем добавить n для равновесных базовых частот и вычесть 1, потому что это фиксировано. Один получает

Например, для аминокислотной последовательности (существует 20 «стандартных» аминокислот, из которых состоят белки ), можно найти 209 параметров. Однако при изучении кодирующих областей генома чаще работают с моделью замены кодонов (кодон состоит из трех оснований и кодирует одну аминокислоту в белке). Есть кодоны, но скорости для переходов между кодонов , которые отличаются более чем одним основанием принимается равным нулю. Значит, есть параметры.

См. Также [ править ]

  • Молекулярная эволюция
  • Молекулярные часы
  • UPGMA

Ссылки [ править ]

  1. ^ Jukes TH, Кантор CR (1969). Эволюция белковых молекул . Нью-Йорк: Academic Press. С. 21–132.
  2. Перейти ↑ Kimura M (декабрь 1980 г.). «Простой метод оценки скорости эволюции замен оснований посредством сравнительных исследований нуклеотидных последовательностей». Журнал молекулярной эволюции . 16 (2): 111–20. Bibcode : 1980JMolE..16..111K . DOI : 10.1007 / BF01731581 . PMID 7463489 . S2CID 19528200 .  
  3. ^ a b c Кимура М. (январь 1981 г.). «Оценка эволюционных расстояний между гомологичными нуклеотидными последовательностями» . Труды Национальной академии наук Соединенных Штатов Америки . 78 (1): 454–8. Bibcode : 1981PNAS ... 78..454K . DOI : 10.1073 / pnas.78.1.454 . PMC 319072 . PMID 6165991 .  
  4. ^ Bashford JD, Jarvis PD, Самнер JG, сталь MA (2004-02-25). «Симметрия U (1) × U (1) × U (1) модели Кимуры 3ST и филогенетические ветвящиеся процессы». Журнал физики A: математический и общий . 37 (8): L81 – L89. arXiv : q-bio / 0310037 . DOI : 10.1088 / 0305-4470 / 37/8 / L01 . S2CID 7845860 . 
  5. ^ Самнер JG, Charleston М.А., Jermiin Л.С., Jarvis PD (август 2008). «Марковские инварианты, плетизмы и филогенетика». Журнал теоретической биологии . 253 (3): 601–15. DOI : 10.1016 / j.jtbi.2008.04.001 . PMID 18513747 . 
  6. ^ Самнер JG, Jarvis PD, Holland BR (декабрь 2014). «Тензорный подход к инверсии групповых филогенетических моделей» . BMC Evolutionary Biology . 14 (1): 236. DOI : 10,1186 / s12862-014-0236-6 . PMC 4268818 . PMID 25472897 .  
  7. ^ Hendy MD, Penny D, стали MA (апрель 1994). «Дискретный анализ Фурье для эволюционных деревьев» . Труды Национальной академии наук Соединенных Штатов Америки . 91 (8): 3339–43. Bibcode : 1994PNAS ... 91.3339H . DOI : 10.1073 / pnas.91.8.3339 . PMC 43572 . PMID 8159749 .  
  8. ^ Hendy MD (2005). «Спряжение Адамара: аналитический инструмент для филогенетики» . В Gascuel O (ред.). Математика эволюции и филогении . Издательство Оксфордского университета. С. 143–177. ISBN 978-0198566106.
  9. ^ Hendy MD, Snir S (июль 2008). «Сопряжение Адамара для 3ST модели Кимуры: комбинаторное доказательство с использованием наборов путей». Транзакции IEEE / ACM по вычислительной биологии и биоинформатике . 5 (3): 461–71. DOI : 10.1109 / TCBB.2007.70227 . PMID 18670048 . S2CID 20633916 .  
  10. ^ a b Уодделл П.Дж., Пенни Д., Мур Т. (август 1997 г.). «Сопряжения Адамара и моделирование эволюции последовательностей с неравными скоростями по сайтам». Молекулярная филогенетика и эволюция . 8 (1): 33–50. DOI : 10.1006 / mpev.1997.0405 . PMID 9242594 . 
  11. Ян З (сентябрь 1994). «Филогенетическая оценка максимального правдоподобия из последовательностей ДНК с переменной скоростью по сайтам: приблизительные методы». Журнал молекулярной эволюции . 39 (3): 306–14. Bibcode : 1994JMolE..39..306Y . CiteSeerX 10.1.1.305.951 . DOI : 10.1007 / BF00160154 . PMID 7932792 . S2CID 17911050 .   
  12. ^ Фельзенштейн J (1981). «Эволюционные деревья из последовательностей ДНК: подход максимального правдоподобия». Журнал молекулярной эволюции . 17 (6): 368–76. Bibcode : 1981JMolE..17..368F . DOI : 10.1007 / BF01734359 . PMID 7288891 . S2CID 8024924 .  
  13. ^ Хасегава М, Kishino Н, Ян Т (1985). «Датирование расщепления человека и обезьяны по молекулярным часам митохондриальной ДНК». Журнал молекулярной эволюции . 22 (2): 160–74. Bibcode : 1985JMolE..22..160H . DOI : 10.1007 / BF02101694 . PMID 3934395 . S2CID 25554168 .  
  14. ^ Kishino H, Hasegawa M (август 1989). «Оценка максимального правдоподобия топологий эволюционного дерева на основе данных последовательности ДНК и порядка ветвления в гоминоиде». Журнал молекулярной эволюции . 29 (2): 170–9. Bibcode : 1989JMolE..29..170K . DOI : 10.1007 / BF02100115 . PMID 2509717 . S2CID 8045061 .  
  15. ^ Фельзенштейн Дж, Черчилль Г.А. (январь 1996). «Подход скрытой марковской модели к изменению скорости эволюции сайтов» . Молекулярная биология и эволюция . 13 (1): 93–104. DOI : 10.1093 / oxfordjournals.molbev.a025575 . PMID 8583911 . 
  16. ^ а б Тамура К. (июль 1992 г.). «Оценка количества замен нуклеотидов при сильных смещениях трансверсии перехода и содержания G + C» . Молекулярная биология и эволюция . 9 (4): 678–87. DOI : 10.1093 / oxfordjournals.molbev.a040752 . PMID 1630306 . 
  17. Перейти ↑ Tamura K, Nei M (май 1993). «Оценка количества замен нуклеотидов в контрольной области митохондриальной ДНК у человека и шимпанзе» . Молекулярная биология и эволюция . 10 (3): 512–26. DOI : 10.1093 / oxfordjournals.molbev.a040023 . PMID 8336541 . 
  18. ^ а б Таваре S (1986). «Некоторые вероятностные и статистические проблемы анализа последовательностей ДНК» (PDF) . Лекции по математике в естественных науках . 17 : 57–86.

Дальнейшее чтение [ править ]

  • Гу X, Ли WH (сентябрь 1992 г.). «Более высокие показатели замены аминокислот у грызунов, чем у человека». Молекулярная филогенетика и эволюция . 1 (3): 211–4. DOI : 10.1016 / 1055-7903 (92) 90017-B . PMID  1342937 .
  • Ли У.Х., Эллсуорт Д.Л., Крушкал Дж., Чанг Б.Х., Хьюетт-Эммет Д. (февраль 1996 г.). «Скорость замены нуклеотидов у приматов и грызунов и гипотеза эффекта времени поколения». Молекулярная филогенетика и эволюция . 5 (1): 182–7. DOI : 10.1006 / mpev.1996.0012 . PMID  8673286 .

Внешние ссылки [ править ]

  • DAWG: DNA Assembly With Gaps - бесплатное программное обеспечение для моделирования эволюции последовательностей