Модель замещения

В биологии модели замещения , также называемые моделями эволюции последовательности ДНК , представляют собой марковские модели, которые описывают изменения во времени эволюции. Эти модели описывают эволюционные изменения макромолекул (например, последовательности ДНК ), представленные в виде последовательности символов (A, C, G и T в случае ДНК ). Модели замещения используются для расчета вероятности в филогенетических деревьев с использованием множественного выравнивания данных. Таким образом, модели замещения играют центральную роль в оценке филогении методом максимального правдоподобия, а также для байесовского вывода в филогенезе.. Оценки эволюционных расстояний (количество замен, которые произошли с тех пор, как пара последовательностей расходится от общего предка) обычно вычисляются с использованием моделей замещения (эволюционные расстояния используются в качестве входных данных для методов расстояния, таких как соединение соседей ). Модели замещения также являются центральными для филогенетических инвариантов, поскольку они могут использоваться для прогнозирования частот частот паттернов сайтов с учетом топологии дерева. Модели замещения необходимы для моделирования данных последовательности для группы организмов, связанных определенным деревом.

Выравнивание множественных последовательностей (в данном случае последовательностей ДНК) и иллюстрации использования моделей замещения для эволюционных выводов. Данные в этом выравнивании (в данном случае игрушечный пример с 18 сайтами) преобразуются в набор шаблонов сайтов. Шаблоны сайтов показаны вместе с количеством их совпадений. Эти шаблоны сайтов используются для расчета вероятности с учетом модели замещения и филогенетического дерева (в данном случае дерева с четырьмя таксонами без корней). Также необходимо принять модель замещения для оценки эволюционных расстояний для пар последовательностей (расстояния - это количество замен, которые произошли с тех пор, как последовательности имели общего предка). Уравнение эволюционного расстояния ( d ₁₂ ) основано на простой модельной модели, предложенной Джуксом и Кантором в 1969 году. Уравнение преобразует пропорцию нуклеотидных различий между таксонами 1 и 2 ( p ₁₂ = 4/18; четыре паттерна сайтов, которые различаются между таксонами 1 и 2 отмечены звездочками) на эволюционное расстояние (в данном случае d ₁₂ = 0,2635 замен на сайт).

Топологии филогенетических деревьев и другие параметры

Топологии филогенетических деревьев часто представляют интерес; ^[1] таким образом, длины ветвей и любые другие параметры, описывающие процесс замещения, часто рассматриваются как мешающие параметры . Однако биологов иногда интересуют другие аспекты модели. Например, длины ветвей, особенно когда эти длины ветвей объединены с информацией из летописи окаменелостей и моделью для оценки временных рамок эволюции. ^[2] Другие параметры модели были использованы для понимания различных аспектов процесса эволюции. К / K _сек соотношения (называемые также ш в кодоне подстановки модели) является параметром интереса во многих исследованиях. Отношение K _a / K _s можно использовать для изучения действия естественного отбора на кодирующие белок участки; ^[3] он предоставляет информацию об относительных скоростях нуклеотидных замен, которые изменяют аминокислоты (несинонимичные замены) на те, которые не изменяют кодируемую аминокислоту (синонимичные замены).

Применение к данным последовательности

Большая часть работы над моделями замещения была сосредоточена на эволюции последовательностей ДНК / РНК и белков . Модели эволюции последовательности ДНК, где алфавит соответствует четырем нуклеотидам (A, C, G и T), вероятно, являются самыми простыми для понимания моделями. Модели ДНК также можно использовать для изучения эволюции РНК-вируса ; это отражает тот факт, что РНК также имеет алфавит из четырех нуклеотидов (A, C, G и U). Однако модели замещения могут использоваться для алфавитов любого размера; алфавит - это 20 протеиногенных аминокислот для белков и смысловые кодоны (т.е. 61 кодон, кодирующий аминокислоты в стандартном генетическом коде ) для выровненных последовательностей генов, кодирующих белок. Фактически, модели замещения могут быть разработаны для любых биологических признаков, которые могут быть закодированы с использованием определенного алфавита (например, аминокислотные последовательности в сочетании с информацией о конформации этих аминокислот в трехмерных белковых структурах ^[4] ).

Большинство моделей замен, используемых для эволюционных исследований, предполагают независимость между сайтами (т. Е. Вероятность наблюдения любого конкретного шаблона сайта идентична независимо от того, где шаблон сайта находится в выравнивании последовательностей). Это упрощает расчеты вероятности, поскольку необходимо только рассчитать вероятность всех шаблонов сайтов, которые появляются в выравнивании, а затем использовать эти значения для расчета общей вероятности согласования (например, вероятность трех шаблонов сайтов "GGGG" при некоторой модели Эволюция последовательности ДНК - это просто вероятность того, что образец одного сайта "GGGG" возведен в третью степень). Это означает, что модели замещения можно рассматривать как предполагающие определенное полиномиальное распределение частот паттернов сайтов. Если мы рассмотрим множественное выравнивание последовательностей с четырьмя последовательностями ДНК, существует 256 возможных паттернов сайтов, так что существует 255 степеней свободы для частот паттернов сайтов. Однако можно указать ожидаемые частоты паттернов сайтов с использованием пяти степеней свободы, если использовать модель эволюции ДНК Джукса-Кантора ^[5], которая представляет собой простую модель замещения, которая позволяет вычислить ожидаемые частоты паттернов сайтов только для дерева. топология и длины ветвей (учитывая четыре таксона, неукорененное бифуркационное дерево имеет пять длин ветвей).

Модели замещения также позволяют моделировать данные последовательности с использованием методов Монте-Карло . Смоделированные множественные выравнивания последовательностей могут быть использованы для оценки эффективности филогенетических методов ^[6] и создания нулевого распределения для определенных статистических тестов в области молекулярной эволюции и молекулярной филогенетики. Примеры этих тестов включают тесты соответствия модели ^[7] и «тест SOWH», который можно использовать для изучения топологий дерева. ^[8]^[9]

Приложение к морфологическим данным

Тот факт, что модели замещения могут использоваться для анализа любого биологического алфавита, позволил разработать модели эволюции для наборов фенотипических данных ^[10] (например, морфологических и поведенческих признаков). Обычно это «0». используется для обозначения отсутствия признака, а «1» используется для обозначения наличия признака, хотя также возможно подсчитывать символы с использованием нескольких состояний. Используя эту структуру, мы могли бы закодировать набор фенотипов в виде двоичных строк (это можно было бы обобщить до строк с k- состояниями для символов с более чем двумя состояниями) перед анализом с использованием соответствующего режима. Это можно проиллюстрировать на примере «игрушки»: мы можем использовать двоичный алфавит для оценки следующих фенотипических признаков «имеет перья», «откладывает яйца», «имеет мех», «теплокровен» и «способен к энергии». полет". В этом примере с игрушкой у колибри будет последовательность 11011 (у большинства других птиц такая же цепочка), у страусов будет последовательность 11010, у крупного рогатого скота (и у большинства других наземных млекопитающих ) будет последовательность 00110, а у летучих мышей - 00111. Вероятность филогенетической связи. Затем дерево может быть рассчитано с использованием этих двоичных последовательностей и соответствующей модели замещения. Существование этих морфологических моделей позволяет анализировать матрицы данных с таксонами ископаемых, используя только морфологические данные ^[11] или комбинацию морфологических и молекулярных данных ^[12] (последние оцениваются как недостающие данные для таксонов ископаемых). .

Существует очевидное сходство между использованием молекулярных или фенотипических данных в области кладистики и анализом морфологических признаков с использованием модели замещения. Тем не менее, имело место многоголосых дискуссий ^[а] в систематике сообществе в отношении вопроса о том или нет кладистического анализ следует рассматривать как «модель-свободную». Область кладистики (определяемая в самом строгом смысле) поддерживает использование критерия максимальной экономии для филогенетических выводов. ^[13] Многие кладисты отвергают позицию, согласно которой максимальная экономия основана на модели замещения, и (во многих случаях) они оправдывают использование экономии, используя философию Карла Поппера . ^[14] Однако существование «эквивалентных экономичности» моделей ^[15] (т. Е. Моделей замещения, которые дают дерево максимальной экономии при использовании для анализа) позволяет рассматривать экономию как модель замещения. ^[1]

Молекулярные часы и единицы времени

Обычно длина ветви филогенетического дерева выражается как ожидаемое количество замен на сайт; если эволюционная модель указывает, что каждый сайт в пределах наследственной последовательности обычно претерпевает x замен к тому времени, когда он эволюционирует до последовательности конкретного потомка, тогда предок и потомок считаются разделенными длиной ветви x .

Иногда длину ветви измеряют геологическими годами. Например, летопись окаменелостей может позволить определить количество лет между предком и потомком. Поскольку некоторые виды развиваются более быстрыми темпами, чем другие, эти два показателя длины ветви не всегда находятся в прямой зависимости. Ожидаемое количество замен на сайт в год часто обозначается греческой буквой мю (μ).

Говорят, что модель имеет строгие молекулярные часы, если ожидаемое количество замен в год μ постоянно, независимо от того, эволюция какого вида изучается. Важным следствием строгих молекулярных часов является то, что количество ожидаемых замен между предковым видом и любым из его современных потомков не должно зависеть от того, какой вид-потомок исследуется.

Обратите внимание, что предположение о строгих молекулярных часах часто нереалистично, особенно при длительных периодах эволюции. Например, даже несмотря на то, что грызуны генетически очень похожи на приматов , они претерпели гораздо большее количество замен за расчетное время с момента расхождения в некоторых областях генома . ^[16] Это может быть связано с их более коротким временем генерации , ^[17] более высокой скоростью метаболизма , повышенной структурой популяции, повышенной скоростью видообразования или меньшим размером тела . ^[18]^[19] При изучении древних событий, таких как кембрийский взрыв, исходя из предположения о молекулярных часах, часто наблюдается плохое совпадение кладистических и филогенетических данных. Была проведена некоторая работа над моделями, допускающими переменную скорость эволюции. ^[20]^[21]

Модели, которые могут учитывать изменчивость скорости молекулярных часов между различными эволюционными линиями филогении, называются «расслабленными» в противоположность «строгим». В таких моделях можно предположить, что скорость коррелирована или нет между предками и потомками, а вариация скорости между линиями может быть получена из многих распределений, но обычно применяются экспоненциальные и логнормальные распределения. Есть особый случай, называемый «локальными молекулярными часами», когда филогения делится по крайней мере на две части (наборы клонов), и в каждой из них применяются строгие молекулярные часы, но с разной скоростью.

Обратимые во времени и стационарные модели

Многие полезные модели замещения обратимы во времени ; с точки зрения математики, модель не заботится о том, какая последовательность является предком, а какая - потомком, пока все другие параметры (например, количество замен на сайт, которое ожидается между двумя последовательностями) остаются постоянными.

Когда выполняется анализ реальных биологических данных, обычно нет доступа к последовательностям предковых видов, только к современным видам. Однако, когда модель обратима во времени, не имеет значения, какой вид был предком. Вместо этого филогенетическое дерево может быть укоренено с использованием любого из видов, повторно укоренено позже на основе новых знаний или оставлено без корней. Это потому, что не существует «особых» видов, все виды в конечном итоге произошли друг от друга с одинаковой вероятностью.

Модель обратима во времени тогда и только тогда, когда она удовлетворяет этому свойству (обозначения поясняются ниже)

{\ displaystyle \ pi _ {i} Q_ {ij} = \ pi _ {j} Q_ {ji}}

или, что то же самое, свойство детального баланса ,

{\ Displaystyle \ pi _ {я} P (t) _ {ij} = \ pi _ {j} P (t) _ {ji}}

для каждого i , j и t .

Обратимость по времени не следует путать со стационарностью . Модель стационарна, если Q не меняется со временем. Приведенный ниже анализ предполагает стационарную модель.

Математика моделей замещения

Стационарные, нейтральные, независимые модели с конечным числом узлов (предполагающие постоянную скорость эволюции) имеют два параметра, π , вектор равновесия базовых (или характерных) частот и матрицу скоростей Q , которая описывает скорость, с которой базисы одного типа преобразовать в базы другого типа; элемент ${\ displaystyle Q_ {ij}}$ для i ≠ j - скорость, с которой база i переходит в базу j . Диагонали Q- матрицы выбираются так, чтобы сумма строк равнялась нулю:

{\ displaystyle Q_ {ii} = - {\ sum _ {\ lbrace j \ mid j \ neq i \ rbrace} Q_ {ij}} \ ,,}

Равновесный вектор-строка π должен быть аннулирован матрицей скоростей Q :

{\ Displaystyle \ пи \, Q = 0 \ ,.}

Матричная функция перехода - это функция от длин ветвей (в некоторых единицах времени, возможно, в подстановках) к матрице условных вероятностей. Обозначается ${\ Displaystyle P (t)}$ . Запись в i- ^м столбце и j- ^й строке, ${\ Displaystyle P_ {ij} (т)}$ , является вероятностью по прошествии времени t , что существует база j в данной позиции, при условии наличия базы i в этой позиции в момент времени 0. Когда модель обратима во времени, это может быть выполнено между любыми двумя последовательностями, даже если один не является предком другого, если вам известна общая длина ветки между ними.

Асимптотические свойства P _ij (t) таковы, что P _ij (0) = δ _ij , где δ _ij - дельта- функция Кронекера . То есть нет изменений в базовой композиции между последовательностью и самой собой. С другой стороны, ${\ displaystyle \ lim _ {t \ rightarrow \ infty} P_ {ij} (t) = \ pi _ {j} \ ,,}$ или, другими словами, по мере того, как время уходит в бесконечность, вероятность нахождения базы j в позиции, при условии, что база i была в этой позиции, изначально переходит в равновесную вероятность того, что в этой позиции есть база j , независимо от исходной базы. Кроме того, отсюда следует, что ${\ Displaystyle \ пи П (т) = \ пи}$ для всех т .

Матрица перехода может быть вычислена из матрицы скоростей посредством возведения в степень матрицы :

{\ displaystyle P (t) = e ^ {Qt} = \ sum _ {n = 0} ^ {\ infty} Q ^ {n} {\ frac {t ^ {n}} {n!}} \ ,, }

где Q ⁿ - матрица Q, умноженная сама на себя столько раз, чтобы получить ее n- ^ю степень.

Если Q является диагонализируем , матрицей экспоненциальным может быть вычислено непосредственно: пусть Q = U ^-1 Λ U быть диагонализацией Q , с

{\ displaystyle \ Lambda = {\ begin {pmatrix} \ lambda _ {1} & \ ldots & 0 \\\ vdots & \ ddots & \ vdots \\ 0 & \ ldots & \ lambda _ {4} \ end {pmatrix}} \ ,,}

где Λ - диагональная матрица и где ${\ Displaystyle \ lbrace \ lambda _ {я} \ rbrace}$ - собственные значения Q , каждое из которых повторяется в соответствии со своей кратностью. потом

{\ Displaystyle P (T) = e ^ {Qt} = e ^ {U ^ {- 1} (\ Lambda t) U} = U ^ {- 1} e ^ {\ Lambda t} \, U \ ,, }

где диагональная матрица e ^Λt имеет вид

{\ displaystyle e ^ {\ Lambda t} = {\ begin {pmatrix} e ^ {\ lambda _ {1} t} & \ ldots & 0 \\\ vdots & \ ddots & \ vdots \\ 0 & \ ldots & e ^ { \ lambda _ {4} t} \ end {pmatrix}} \ ,.}

Обобщенное время обратимое

Обобщенная обратимая во времени (ОТО) - это наиболее общая нейтральная, независимая, с конечными узлами, обратимая во времени модель. Впервые она была описана в общей форме Саймоном Таваре в 1986 году. ^[22] Модель ОТО в публикациях часто называют общей моделью с обратимым временем; ^[23] ее также называют моделью REV. ^[24]

Параметры ОТО для нуклеотидов состоят из вектора равновесной базовой частоты, ${\ displaystyle {\ vec {\ pi}} = (\ pi _ {1}, \ pi _ {2}, \ pi _ {3}, \ pi _ {4})}$ , что дает частоту, с которой каждая база встречается на каждом сайте, и матрица скоростей

{\ displaystyle Q = {\ begin {pmatrix} {- (x_ {1} + x_ {2} + x_ {3})} & x_ {1} & x_ {2} & x_ {3} \\ {\ pi _ {1 } x_ {1} \ over \ pi _ {2}} & {- ({\ pi _ {1} x_ {1} \ over \ pi _ {2}} + x_ {4} + x_ {5})} & x_ {4} & x_ {5} \\ {\ pi _ {1} x_ {2} \ over \ pi _ {3}} & {\ pi _ {2} x_ {4} \ over \ pi _ {3} } & {- ({\ pi _ {1} x_ {2} \ over \ pi _ {3}} + {\ pi _ {2} x_ {4} \ over \ pi _ {3}} + x_ {6 })} & x_ {6} \\ {\ pi _ {1} x_ {3} \ over \ pi _ {4}} & {\ pi _ {2} x_ {5} \ over \ pi _ {4}} & {\ pi _ {3} x_ {6} \ over \ pi _ {4}} & {- ({\ pi _ {1} x_ {3} \ over \ pi _ {4}} + {\ pi _ {2} x_ {5} \ over \ pi _ {4}} + {\ pi _ {3} x_ {6} \ over \ pi _ {4}})} \ end {pmatrix}}}

Поскольку модель должна быть обратимой во времени и должна приближаться к равновесным частотам нуклеотидов (оснований) в течение длительного времени, каждая скорость ниже диагонали равна обратной скорости выше диагонали, умноженной на равновесное соотношение двух оснований. Таким образом, нуклеотидный GTR требует 6 параметров скорости замещения и 4 параметра равновесной базовой частоты. Поскольку сумма четырех частотных параметров должна быть равна 1, имеется только 3 свободных частотных параметра. Общее количество 9 свободных параметров часто сокращается до 8 параметров плюс ${\ displaystyle \ mu}$ , общее количество замен в единицу времени. При замере времени в заменах ( ${\ displaystyle \ mu}$ = 1) осталось всего 8 свободных параметров.

В общем, чтобы вычислить количество параметров, вы подсчитываете количество записей над диагональю в матрице, то есть для n значений признаков на сайт. ${\ displaystyle {{n ^ {2} -n} \ более 2}}$ , а затем добавьте n-1 для равновесных частот и вычтите 1, потому что ${\ displaystyle \ mu}$ фиксированный. Ты получаешь

{\ displaystyle {{n ^ {2} -n} \ over 2} + (n-1) -1 = {1 \ over 2} n ^ {2} + {1 \ over 2} n-2.}

Например, для аминокислотной последовательности (существует 20 «стандартных» аминокислот , из которых состоят белки ), вы найдете 208 параметров. Однако при изучении кодирующих областей генома чаще работают с моделью замены кодонов (кодон состоит из трех оснований и кодирует одну аминокислоту в белке). Есть ${\ displaystyle 4 ^ {3} = 64}$ кодонов, что дает 2078 свободных параметров. Однако скорости переходов между кодонами, которые различаются более чем на одно основание, часто принимают равными нулю, сокращая количество свободных параметров только до ${\ displaystyle {{20 \ times 19 \ times 3} \ over 2} + 63-1 = 632}$ параметры. Другая распространенная практика - уменьшить количество кодонов, запретив стоп- кодоны (или бессмысленные ). Это биологически разумное предположение, потому что включение стоп-кодонов означало бы, что вычисляется вероятность обнаружения смыслового кодона. ${\ displaystyle j}$ по истечении времени ${\ displaystyle t}$ учитывая, что наследственный кодон ${\ displaystyle i}$ предполагает возможность прохождения состояния с преждевременным стоп-кодоном.

Альтернативный (и обычно используемый ^[23]^[25]^[26]^[27] ) способ записи матрицы мгновенных скоростей ( ${\ displaystyle Q}$ матрица) для нуклеотидной модели GTR:

${\ Displaystyle Q = {\ begin {pmatrix} {- (a \ pi _ {C} + b \ pi _ {G} + c \ pi _ {T})} & a \ pi _ {C} & b \ pi _ {G} & c \ pi _ {T} \\ a \ pi _ {A} & {- (a \ pi _ {A} + d \ pi _ {G} + e \ pi _ {T})} & d \ pi _ {G} & e \ pi _ {T} \\ b \ pi _ {A} & d \ pi _ {C} & {- (b \ pi _ {A} + d \ pi _ {C} + f \ pi _ {T})} & f \ pi _ {T} \\ c \ pi _ {A} & e \ pi _ {C} & f \ pi _ {G} & {- (c \ pi _ {A} + e \ pi _ {C} + f \ pi _ {G})} \ end {pmatrix}}}$

В ${\ displaystyle Q}$ матрица нормализована так ${\ displaystyle - \ sum _ {k = 1} ^ {4} \ pi _ {i} Q_ {ii} = 1}$ .

Это обозначение легче понять, чем обозначение, первоначально используемое Таваре , потому что все параметры модели соответствуют либо параметрам "заменяемости" ( ${\ displaystyle a}$ через ${\ displaystyle f}$ , который также можно записать в обозначениях ${\ displaystyle r_ {ij}}$ ) или к равновесным частотам нуклеотидов ${\ displaystyle {\ vec {\ pi}} = (\ pi _ {A}, \ pi _ {C}, \ pi _ {G}, \ pi _ {T})}$ . Обратите внимание, что нуклеотиды в ${\ displaystyle Q}$ матрицы записаны в алфавитном порядке. Другими словами, матрица вероятностей перехода для ${\ displaystyle Q}$ матрица выше будет:

${\ displaystyle P (t) = e ^ {Qt} = {\ begin {pmatrix} p _ {\ mathrm {AA}} (t) & p _ {\ mathrm {AC}} (t) & p _ {\ mathrm {AG}} (t) & p _ {\ mathrm {AT}} (t) \\ p _ {\ mathrm {CA}} (t) & p _ {\ mathrm {CC}} (t) & p _ {\ mathrm {CG}} (t) & p_ {\ mathrm {CT}} (t) \\ p _ {\ mathrm {GA}} (t) & p _ {\ mathrm {GC}} (t) & p _ {\ mathrm {GG}} (t) & p _ {\ mathrm { GT}} (t) \\ p _ {\ mathrm {TA}} (t) & p _ {\ mathrm {TC}} (t) & p _ {\ mathrm {TG}} (t) & p _ {\ mathrm {TT}} ( t) \ end {pmatrix}}}$

В некоторых публикациях нуклеотиды записываются в другом порядке (например, некоторые авторы предпочитают сгруппировать два пурина вместе и два пиримидина ; см. Также модели эволюции ДНК ). Эти различия в обозначениях делают важным ясность порядка состояний при написании ${\ displaystyle Q}$ матрица.

Значение этого обозначения состоит в том, что мгновенная скорость изменения нуклеотида ${\ displaystyle i}$ к нуклеотиду ${\ displaystyle j}$ всегда можно записать как ${\ displaystyle r_ {ij} \ pi _ {j}}$ , где ${\ displaystyle r_ {ij}}$ возможность обмена нуклеотидов ${\ displaystyle i}$ а также ${\ displaystyle j}$ а также ${\ displaystyle \ pi _ {j}}$ - равновесная частота ${\ displaystyle j ^ {th}}$ нуклеотид. В приведенной выше матрице используются буквы ${\ displaystyle a}$ через ${\ displaystyle f}$ для параметров заменяемости в интересах удобочитаемости, но эти параметры также могут быть записаны систематическим образом с использованием ${\ displaystyle r_ {ij}}$ обозначение (например, ${\ displaystyle a = r_ {AC}}$ , ${\ displaystyle b = r_ {AG}}$ , и так далее).

Обратите внимание, что порядок индексов нуклеотидов для параметров обменяемости не имеет значения (например, ${\ displaystyle r_ {AC} = r_ {CA}}$ ), но значения матрицы вероятностей перехода - нет (т. е. ${\ Displaystyle р _ {\ mathrm {AC}} (т)}$ вероятность наблюдения A в последовательности 1 и C в последовательности 2, когда эволюционное расстояние между этими последовательностями равно ${\ displaystyle t}$ тогда как ${\ Displaystyle р _ {\ mathrm {CA}} (т)}$ вероятность наблюдения C в последовательности 1 и A в последовательности 2 на одном и том же эволюционном расстоянии).

Произвольно выбранные параметры взаимозаменяемости (например, ${\ displaystyle f = r_ {GT}}$ ) обычно устанавливается равным 1, чтобы повысить удобочитаемость оценок параметров заменяемости (так как это позволяет пользователям выражать эти значения относительно выбранного параметра заменяемости). Практика выражения параметров взаимозаменяемости в относительных терминах не вызывает проблем, поскольку ${\ displaystyle Q}$ матрица нормализована. Нормализация позволяет ${\ displaystyle t}$ (время) в матричном возведении в степень ${\ Displaystyle P (т) = е ^ {Qt}}$ должны быть выражены в единицах ожидаемых замен на сайт (стандартная практика в молекулярной филогенетике). Это эквивалентно утверждению, что устанавливается скорость мутации. ${\ displaystyle \ mu}$ до 1) и уменьшение количества свободных параметров до восьми. В частности, существует пять параметров свободной заменяемости ( ${\ displaystyle a}$ через ${\ displaystyle e}$ , которые выражаются относительно фиксированной ${\ displaystyle f = r_ {GT} = 1}$ в этом примере) и три параметра равновесной базовой частоты (как описано выше, только три ${\ displaystyle \ pi _ {я}}$ значения должны быть указаны, потому что ${\ displaystyle {\ vec {\ pi}}}$ сумма должна быть равна 1).

Альтернативные обозначения также упрощают понимание подмоделей модели GTR, которые просто соответствуют случаям, когда параметры взаимозаменяемости и / или равновесной базовой частоты должны принимать равные значения. Был назван ряд конкретных подмоделей, в значительной степени основанных на их оригинальных публикациях:

Избранные модели эволюции ДНК, часто используемые в молекулярной филогенетике
Модель	Параметры заменяемости	Параметры базовой частоты	Справка
JC69 (или JC)	${\ displaystyle a = b = c = d = e = f}$	${\ displaystyle \ pi _ {A} = \ pi _ {C} = \ pi _ {G} = \ pi _ {T} = 0,25}$	Джакс и Кантор (1969) ^[5]
F81	${\ displaystyle a = b = c = d = e = f}$	все ${\ displaystyle \ pi _ {я}}$ бесплатные ценности	Фельзенштейн (1981) ^[28]
K2P (или K80)	${\ displaystyle a = c = d = f}$ ( трансверсии ), ${\ displaystyle b = e}$ ( переходы )	${\ displaystyle \ pi _ {A} = \ pi _ {C} = \ pi _ {G} = \ pi _ {T} = 0,25}$	Кимура (1980) ^[29]
HKY85	${\ displaystyle a = c = d = f}$ ( трансверсии ), ${\ displaystyle b = e}$ ( переходы )	все ${\ displaystyle \ pi _ {я}}$ бесплатные ценности	Hasegawa et al. (1985) ^[30]
K3ST (или K81)	${\ displaystyle a = f}$ ( ${\ displaystyle \ gamma}$ трансверсии ), ${\ displaystyle c = d}$ ( ${\ displaystyle \ beta}$ трансверсии ), ${\ displaystyle b = e}$ ( переходы )	${\ displaystyle \ pi _ {A} = \ pi _ {C} = \ pi _ {G} = \ pi _ {T} = 0,25}$	Кимура (1981) ^[31]
TN93	${\ displaystyle a = c = d = f}$ ( трансверсии ), ${\ displaystyle b}$ ( ${\ displaystyle A \ leftrightarrow G}$ переходы ), ${\ displaystyle e}$ ( ${\ Displaystyle C \ leftrightarrow T}$ переходы )	все ${\ displaystyle \ pi _ {я}}$ бесплатные ценности	Тамура и Ней (1993) ^[32]
SYM	все параметры заменяемости бесплатно	${\ displaystyle \ pi _ {A} = \ pi _ {C} = \ pi _ {G} = \ pi _ {T} = 0,25}$	Жарких (1994) ^[33]
GTR (или REV ^[24] )	все параметры заменяемости бесплатно	все ${\ displaystyle \ pi _ {я}}$ бесплатные ценности	Таваре (1986) ^[22]

Существует 203 возможных способа ограничения параметров заменяемости для формирования подмоделей ОТО ^[34], начиная от моделей JC69 ^[5] и F81 ^[28] (где все параметры заменяемости равны) до SYM ^[33]. модель и полная модель GTR ^[22] (или REV ^[24] ) (где все параметры заменяемости свободны). Равновесные базовые частоты обычно трактуются двумя разными способами: 1) все ${\ displaystyle \ pi _ {я}}$ значения должны быть равными (т. е. ${\ displaystyle \ pi _ {A} = \ pi _ {C} = \ pi _ {G} = \ pi _ {T} = 0,25}$ ); или 2) все ${\ displaystyle \ pi _ {я}}$ значения рассматриваются как свободные параметры. Хотя равновесные базовые частоты могут быть ограничены другими способами, большинство из них ограничивает связь, но не все. ${\ displaystyle \ pi _ {я}}$ ценности нереалистичны с биологической точки зрения. Возможное исключение - обеспечение симметрии цепи ^[35] (т. Е. Ограничение ${\ displaystyle \ pi _ {A} = \ pi _ {T}}$ а также ${\ displaystyle \ pi _ {C} = \ pi _ {G}}$ но позволяя ${\ displaystyle \ pi _ {A} + \ pi _ {T} \ neq \ pi _ {C} + \ pi _ {G}}$ ).

Альтернативная нотация также позволяет легко увидеть, как модель GTR может быть применена к биологическим алфавитам с большим пространством состояний (например, аминокислотам или кодонам ). Набор частот равновесных состояний можно записать как ${\ displaystyle \ pi _ {1}}$ , ${\ displaystyle \ pi _ {2}}$ , ... ${\ displaystyle \ pi _ {k}}$ и набор параметров заменяемости ( ${\ displaystyle r_ {ij}}$ ) для любого алфавита ${\ displaystyle k}$ состояния персонажей. Эти значения можно использовать для заполнения ${\ displaystyle Q}$ матрицу, установив недиагональные элементы, как показано выше (общее обозначение будет ${\ Displaystyle Q_ {ij} = r_ {ij} \ pi _ {j}}$ ), задав диагональные элементы ${\ displaystyle Q_ {ii}}$ к отрицательной сумме недиагональных элементов в той же строке и нормализации. Очевидно, ${\ displaystyle k = 20}$ для аминокислот и ${\ displaystyle k = 61}$ для кодонов (при условии стандартного генетического кода ). Однако общность этого обозначения полезна, потому что можно использовать сокращенные алфавиты для аминокислот. Например, можно использовать ${\ displaystyle k = 6}$ и кодировать аминокислоты путем перекодирования аминокислот с использованием шести категорий, предложенных Маргарет Дейхофф . Сокращение количества аминокислотных алфавитов рассматривается как способ уменьшить влияние вариаций и насыщенности композиции. ^[36]

Механистические и эмпирические модели

Основное различие в эволюционных моделях состоит в том, сколько параметров оценивается каждый раз для рассматриваемого набора данных и сколько из них оценивается один раз на большом наборе данных. Механистические модели описывают все замены как функцию ряда параметров, которые оцениваются для каждого анализируемого набора данных, предпочтительно с использованием максимального правдоподобия . Это имеет то преимущество, что модель может быть адаптирована к особенностям конкретного набора данных (например, различные систематические ошибки в составе ДНК). Проблемы могут возникнуть, когда используется слишком много параметров, особенно если они могут компенсировать друг друга (это может привести к неидентифицируемости ^[37] ). Тогда часто бывает, что набор данных слишком мал, чтобы дать достаточно информации для точной оценки всех параметров.

Эмпирические модели создаются путем оценки многих параметров (обычно всех элементов матрицы скорости, а также частот символов, см. Модель GTR выше) из большого набора данных. Затем эти параметры фиксируются и будут повторно использоваться для каждого набора данных. Это имеет то преимущество, что эти параметры можно оценить более точно. Обычно невозможно оценить все элементы матрицы замещения только из текущего набора данных. С другой стороны, параметры, оцененные на основе обучающих данных, могут быть слишком общими и, следовательно, плохо соответствовать какому-либо конкретному набору данных. Потенциальным решением этой проблемы является оценка некоторых параметров на основе данных с использованием максимального правдоподобия (или какого-либо другого метода). При изучении эволюции белков равновесные частоты аминокислот ${\ displaystyle {\ vec {\ pi}} = (\ pi _ {A}, \ pi _ {R}, \ pi _ {N}, ... \ pi _ {V})}$ (с использованием однобуквенных кодов ИЮПАК для аминокислот для обозначения их равновесных частот) часто оцениваются по данным ^[38] , сохраняя при этом матрицу обменной способности фиксированной. Помимо общепринятой практики оценки частот встречаемости аминокислот на основе данных, существуют методы оценки параметров обменной способности ^[39] или корректировки ${\ displaystyle Q}$ матрица ^[40] для эволюции белков другими способами.

Поскольку крупномасштабное секвенирование генома все еще дает очень большое количество последовательностей ДНК и белков, имеется достаточно данных для создания эмпирических моделей с любым количеством параметров, включая эмпирические модели кодонов. ^[41] Из-за проблем, упомянутых выше, два подхода часто комбинируются, оценивая большинство параметров один раз на крупномасштабных данных, в то время как несколько оставшихся параметров затем корректируются в соответствии с рассматриваемым набором данных. В следующих разделах дается обзор различных подходов, используемых для моделей на основе ДНК, белков или кодонов.

Модели замещения ДНК

Первые модели эволюции ДНК были предложены Джуксом и Кантором ^[5] в 1969 году. Модель Джукса-Кантора (JC или JC69) предполагает равные скорости переходов, а также равные частоты равновесия для всех оснований, и это простейшая подмодель Модель GTR. В 1980 году Мотоо Кимура представил модель с двумя параметрами (K2P или K80 ^[29] ): одним для перехода, а другим - для скорости трансверсии . Год спустя Кимура представил вторую модель (K3ST, K3P или K81 ^[31] ) с тремя типами замещения: один для скорости перехода , другой для скорости трансверсий, которые сохраняют сильные / слабые свойства нуклеотидов ( ${\ displaystyle A \ leftrightarrow T}$ а также ${\ Displaystyle C \ leftrightarrow G}$ , назначенный ${\ displaystyle \ beta}$ Кимура ^[31] ), и один для скорости трансверсий, которые сохраняют амино / кето свойства нуклеотидов ( ${\ displaystyle A \ leftrightarrow C}$ а также ${\ displaystyle G \ leftrightarrow T}$ , назначенный ${\ displaystyle \ gamma}$ Кимуры ^[31] ). В 1981 году Джозеф Фельзенштейн предложил четырехпараметрическую модель (F81 ^[28] ), в которой скорость замещения соответствует равновесной частоте нуклеотида-мишени. Хасегава, Кишино и Яно объединили две последние модели в пятипараметрическую модель (HKY ^[30] ). После этих новаторских усилий многие дополнительные подмодели модели ОТО были введены в литературу (и стали широко использоваться) в 1990-х годах. ^[32]^[33] Другие модели, которые выходят за рамки модели ОТО определенным образом, также были разработаны и уточнены несколькими исследователями. ^[42]^[43]

Почти все модели замещения ДНК являются механистическими моделями (как описано выше). Небольшое количество параметров, которые необходимо оценить для этих моделей, позволяет оценить эти параметры на основе данных. Это также необходимо, потому что модели эволюции последовательностей ДНК часто различаются между организмами и между генами внутри организмов. Последнее может отражать оптимизацию путем отбора для конкретных целей (например, быстрая экспрессия или стабильность информационной РНК) или может отражать нейтральные вариации в паттернах замещения. Таким образом, в зависимости от организма и типа гена, вероятно, необходимо адаптировать модель к этим обстоятельствам.

Модели замещения с двумя состояниями

Альтернативный способ анализа данных последовательности ДНК - перекодировать нуклеотиды в пурины (R) и пиримидины (Y); ^[44]^[45] эту практику часто называют RY-кодированием. ^[46] Вставки и делеции при множественном выравнивании последовательностей также могут быть закодированы как двоичные данные ^[47] и проанализированы с использованием модели с двумя состояниями. ^[48]^[49]

Простейшая модель эволюции последовательности с двумя состояниями называется моделью Кавендера-Фарриса или моделью Кавендера-Фарриса- Неймана (CFN); Название этой модели отражает тот факт, что она была независимо описана в нескольких различных публикациях. ^[50]^[51]^[52] Модель CFN идентична модели Джукса-Кантора, адаптированной к двум состояниям, и даже была реализована как модель «JC2» в популярном программном пакете IQ-TREE (с использованием этой модели в IQ -TREE требует кодирования данных как 0 и 1, а не R и Y; популярный программный пакет PAUP * может интерпретировать матрицу данных, содержащую только R и Y, как данные, подлежащие анализу с использованием модели CFN). Также просто анализировать двоичные данные с помощью филогенетического преобразования Адамара . ^[53] Альтернативная модель с двумя состояниями позволяет параметрам равновесной частоты R и Y (или 0 и 1) принимать значения, отличные от 0,5, путем добавления одного свободного параметра; эту модель по-разному называют CFu ^[44] или GTR2 (в IQ-TREE).

Модели замещения аминокислот

Для многих анализов, особенно для более длинных эволюционных дистанций, эволюция моделируется на аминокислотном уровне. Поскольку не все замены ДНК также изменяют кодируемую аминокислоту, информация теряется при просмотре аминокислот, а не нуклеотидных оснований. Тем не менее, несколько преимуществ говорят в пользу использования информации об аминокислотах: ДНК гораздо более склонна демонстрировать композиционную систематическую ошибку, чем аминокислоты, не все позиции в ДНК развиваются с одинаковой скоростью ( несинонимичные мутации с меньшей вероятностью фиксируются в популяция, чем синонимичные ), но, вероятно, наиболее важно, из-за этих быстро эволюционирующих позиций и ограниченного размера алфавита (всего четыре возможных состояния) ДНК страдает от большего количества обратных замен, что затрудняет точную оценку более длинных эволюционных расстояний.

В отличие от моделей ДНК, аминокислотные модели традиционно являются эмпирическими моделями. Они были впервые предложены Дайхоффом и его сотрудниками в 1960-х и 1970-х годах путем оценки коэффициентов замены по белкам с идентичностью не менее 85% (первоначально с очень ограниченными данными ^[54] и, в конечном итоге, достигли высшей точки в модели Dayhoff PAM 1978 года ^[55] ). . Это минимизировало шансы наблюдать множественные замены на площадке. Из оценочной матрицы скорости была получена серия матриц вероятности замещения, известных под такими названиями, как PAM 250. Матрицы логарифмических шансов, основанные на модели Dayhoff PAM, обычно использовались для оценки значимости результатов поиска гомологии, хотя матрицы BLOSUM ^{[ 56]} заменили в этом контексте матрицы логарифмических шансов PAM, поскольку матрицы BLOSUM кажутся более чувствительными на различных эволюционных расстояниях, в отличие от матриц логарифмических шансов PAM . ^[57]

Матрица Dayhoff PAM была источником параметров обменной способности, использованных в одном из первых анализов филогении с максимальным правдоподобием, в котором использовались данные о белках ^[58] и модель PAM (или улучшенная версия модели PAM под названием DCMut ^[59] ). для использования в филогенетике. Однако ограниченное количество выравниваний, использованных для создания модели PAM (отражающее ограниченное количество данных о последовательностях, доступных в 1970-х годах), почти наверняка увеличило дисперсию некоторых параметров матрицы скорости (в качестве альтернативы, белки, использованные для создания модели PAM, могли быть нерепрезентативный набор). Несмотря на это, очевидно, что модель PAM редко так хорошо подходит для большинства наборов данных, как более современные эмпирические модели (Keane et al. 2006 ^[60] протестировали тысячи белков позвоночных , протеобактерий и архей, и они обнаружили, что модель Dayhoff PAM модель лучше всего подходит не более чем для <4% белков).

Начиная с 1990-х годов быстрое расширение баз данных последовательностей из-за улучшенных технологий секвенирования привело к оценке многих новых эмпирических матриц ( полный список см. В ^[61] ). В самых ранних попытках использовались методы, аналогичные тем, которые использовались Дэйхоффом, с использованием крупномасштабного сопоставления базы данных белков для создания новой матрицы логарифмических шансов ^[62] и модели JTT (Jones-Taylor-Thornton). ^[63] Быстрое увеличение вычислительной мощности за это время (отражающее такие факторы, как закон Мура ) сделало возможным оценивать параметры для эмпирических моделей, используя модели максимального правдоподобия (например, модели WAG ^[38] и LG ^[64] ) и другие методы. (например, модели VT ^[65] и PMB ^[66] ).

Модель отсутствия общего механизма (NCM) и максимальная экономия

В 1997 году Таффли и Стил ^[67] описали модель, которую они назвали моделью отсутствия общего механизма (NCM). Топология дерева максимального правдоподобия для определенного набора данных с учетом модели NCM идентична топологии оптимального дерева для тех же данных с учетом критерия максимальной экономии . Модель NCM предполагает, что все данные (например, гомологичные нуклеотиды, аминокислоты или морфологические признаки) связаны общим филогенетическим деревом. потом ${\ displaystyle 2T-3}$ параметры вводятся для каждого гомологичного символа, где ${\ displaystyle T}$ количество последовательностей. Это можно рассматривать как оценку отдельного параметра скорости для каждой пары символ × ветвь в наборе данных (обратите внимание, что количество ветвей в полностью разрешенном филогенетическом дереве равно ${\ displaystyle 2T-3}$ ). Таким образом, количество свободных параметров в модели NCM всегда превышает количество гомологичных символов в матрице данных, а модель NCM подвергается критике как последовательно «чрезмерно параметризованная». ^[68]

Внешние ссылки

Эмпирические модели аминокислотного замещения

Заметки

^ Ссылка описывает полемику #ParsimonyGate, которая представляет собой конкретный пример дискуссии о философской природе критерия максимальной экономии. #ParsimonyGate - это реакция в Твиттере на передовую статью в журнале Cladistics, опубликованную Обществом Вилли Хеннига. В редакционной статье говорится, что «... эпистемологической парадигмой этого журнала является экономия», и утверждается, что существуют философские причины предпочесть экономию другим методам филогенетического вывода. Поскольку другие методы филогенетического вывода (например, максимальное правдоподобие, байесовский вывод, филогенетические инварианты и большинство дистанционных методов) основаны на моделях, это утверждение неявно отвергает представление о том, что экономия является моделью.

[:4-1] Steel M, Penny D (июнь 2000 г.). «Экономия, вероятность и роль моделей в молекулярной филогенетике». Молекулярная биология и эволюция . 17 (6): 839–50. DOI : 10.1093 / oxfordjournals.molbev.a026364 . PMID 10833190 .

[2] Бромхэм Л. (май 2019 г.). «Шесть невозможных вещей перед завтраком: предположения, модели и вера в молекулярное датирование». Тенденции в экологии и эволюции . 34 (5): 474–486. DOI : 10.1016 / j.tree.2019.01.017 . PMID 30904189 .

[3] Ян З., Белявский JP (декабрь 2000 г.). «Статистические методы определения молекулярной адаптации» . Тенденции в экологии и эволюции . 15 (12): 496–503. DOI : 10.1016 / s0169-5347 (00) 01994-7 . PMC 7134603 . PMID 11114436 .

[4] Перрон Ю., Козлов А.М., Стаматакис А., Гольдман Н., Моал И.Х. (сентябрь 2019 г.). Пупко Т. (ред.). «Моделирование структурных ограничений эволюции белков с помощью конформационных состояний боковой цепи» . Молекулярная биология и эволюция . 36 (9): 2086–2103. DOI : 10.1093 / molbev / msz122 . PMC 6736381 . PMID 31114882 .

[Jukes_1969-5] а б в г Юкс TH, Кантор CH (1969). «Эволюция белковых молекул». В Манро HN (ред.). Белковый метаболизм млекопитающих . 3 . Эльзевир. С. 21–132. DOI : 10.1016 / b978-1-4832-3211-9.50009-7 . ISBN 978-1-4832-3211-9.

[6] Хюльсенбек Дж. П., Хиллис Д. М. (1 сентября 1993 г.). «Успех филогенетических методов в случае четырех таксонов» . Систематическая биология . 42 (3): 247–264. DOI : 10.1093 / sysbio / 42.3.247 . ISSN 1063-5157 .

[:5-7] Гольдман Н. (февраль 1993 г.). «Статистические тесты моделей замещения ДНК». Журнал молекулярной эволюции . 36 (2): 182–98. Bibcode : 1993JMolE..36..182G . DOI : 10.1007 / BF00166252 . PMID 7679448 . S2CID 29354147 .

[8] Swofford DL Olsen GJ Waddell PJ Hillis DM 1996. "Филогенетический вывод". в области молекулярной систематики (ред. Хиллис Д.М. Мориц К. Мейбл Б.К.) 2-е изд. Сандерленд, Массачусетс: Синауэр. п. 407–514. ISBN 978-0878932825

[9] Черч С.Х., Райан Дж. Ф., Данн К. В. (ноябрь 2015 г.). «Автоматизация и оценка теста SOWH с SOWHAT» . Систематическая биология . 64 (6): 1048–58. DOI : 10.1093 / sysbio / syv055 . PMC 4604836 . PMID 26231182 .

[10] Льюис П.О. (2001-11-01). «Вероятностный подход к оценке филогении по дискретным данным морфологического характера» . Систематическая биология . 50 (6): 913–25. DOI : 10.1080 / 106351501753462876 . PMID 12116640 .

[11] Ли М.С., Кау А., Наиш Д., Дайк Г.Дж. (май 2014 г.). «Морфологические часы в палеонтологии и среднемеловое происхождение кроны Авес» . Систематическая биология . 63 (3): 442–9. DOI : 10.1093 / sysbio / syt110 . PMID 24449041 .

[12] Ronquist F, Klopfstein S, Vilhelmsen L, Schulmeister S, Murray DL, Rasnitsyn AP (декабрь 2012 г.). «Тотальный подход к датированию с помощью окаменелостей, применяемый к раннему облучению перепончатокрылых» . Систематическая биология . 61 (6): 973–99. DOI : 10.1093 / sysbio / sys058 . PMC 3478566 . PMID 22723471 .

[14] Брауэр, А. В. З. (2016). "Мы все кладисты?" in Williams, D., Schmitt, M., & Wheeler, Q. (Eds.). Будущее филогенетической систематики: наследие Вилли Хеннига (Специальный выпуск серии томов Ассоциации систематики, книга 86). Издательство Кембриджского университета. стр.88-114 ISBN 978-1107117648

[15] Фаррис Дж. С., Клюге А. Г., Карпентер Дж. М. (01.05.2001). Олмстед Р. (ред.). «Поппер и правдоподобие против« Поппера * » » . Систематическая биология . 50 (3): 438–444. DOI : 10.1080 / 10635150119150 . ISSN 1076-836X . PMID 12116585 .

[16] Гольдман, Ник (декабрь 1990). "Вывод максимального правдоподобия филогенетических деревьев, с особым упором на модель процесса Пуассона замены ДНК и на анализ экономичности" . Систематическая зоология . 39 (4): 345–361. DOI : 10.2307 / 2992355 . JSTOR 2992355 .

[17] Гу X, Ли WH (сентябрь 1992 г.). «Более высокие показатели замены аминокислот у грызунов, чем у человека». Молекулярная филогенетика и эволюция . 1 (3): 211–4. DOI : 10.1016 / 1055-7903 (92) 90017-B . PMID 1342937 .

[18] Ли У.Х., Эллсуорт Д.Л., Крушкал Дж., Чанг Б.Х., Хьюетт-Эммет Д. (февраль 1996 г.). «Скорость замены нуклеотидов у приматов и грызунов и гипотеза эффекта времени поколения». Молекулярная филогенетика и эволюция . 5 (1): 182–7. DOI : 10.1006 / mpev.1996.0012 . PMID 8673286 .

[19] Мартин А.П., Палумби С.Р. (май 1993 г.). «Размер тела, скорость метаболизма, время генерации и молекулярные часы» . Труды Национальной академии наук Соединенных Штатов Америки . 90 (9): 4087–91. Полномочный код : 1993PNAS ... 90.4087M . DOI : 10.1073 / pnas.90.9.4087 . PMC 46451 . PMID 8483925 .

[20] Ян З., Нильсен Р. (апрель 1998 г.). «Синонимичные и несинонимичные вариации скорости ядерных генов млекопитающих». Журнал молекулярной эволюции . 46 (4): 409–18. Bibcode : 1998JMolE..46..409Y . CiteSeerX 10.1.1.19.7744 . DOI : 10.1007 / PL00006320 . PMID 9541535 . S2CID 13917969 .

[21] Кишино Х., Торн Дж. Л., Бруно В. Дж. (Март 2001 г.). «Выполнение метода оценки времени дивергенции в рамках вероятностной модели эволюции скорости» . Молекулярная биология и эволюция . 18 (3): 352–61. DOI : 10.1093 / oxfordjournals.molbev.a003811 . PMID 11230536 .

[22] Торн Дж. Л., Кишино Н., Художник И. С. (декабрь 1998 г.). «Оценка скорости эволюции скорости молекулярной эволюции» . Молекулярная биология и эволюция . 15 (12): 1647–57. DOI : 10.1093 / oxfordjournals.molbev.a025892 . PMID 9866200 .

[Tavare1986-23] а б в Таваре С. "Некоторые вероятностные и статистические проблемы в анализе последовательностей ДНК" (PDF) . Лекции по математике в естественных науках . 17 : 57–86.

[:0-24] а б Ян З (2006). Вычислительная молекулярная эволюция . Оксфорд: Издательство Оксфордского университета. ISBN 978-1-4294-5951-8. OCLC 99664975 .

[Yang_1994-25] а б в Ян З (июль 1994 г.). «Оценка закономерностей нуклеотидных замен». Журнал молекулярной эволюции . 39 (1): 105–11. Bibcode : 1994JMolE..39..105Y . DOI : 10.1007 / BF00178256 . PMID 8064867 . S2CID 15895455 .

[26] Swofford, DL, Olsen, GJ, Waddell, PJ и Hillis, DM (1996) Филогенетический вывод. В: Hillis, DM, Moritz, C. и Mable, BK, Eds., Molecular Systematics, 2nd Edition, Sinauer Associates, Sunderland (MA), 407-514. ISBN 0878932828ISBN 978-0878932825

[27] Фельзенштейн Дж (2004). Вывод филогении . Сандерленд, Массачусетс: Sinauer Associates. ISBN 0-87893-177-5. OCLC 52127769 .

[28] Swofford DL, Bell CD (1997). "(Черновик) ПАУП * руководство" . Проверено 31 декабря 2019 года .

[Felsenstein_1981-29] а б в Фельзенштейн Дж (ноябрь 1981 г.). «Эволюционные деревья из последовательностей ДНК: подход максимального правдоподобия». Журнал молекулярной эволюции . 17 (6): 368–76. Bibcode : 1981JMolE..17..368F . DOI : 10.1007 / BF01734359 . PMID 7288891 . S2CID 8024924 .

[Kimura_1980-30] а б Кимура М. (декабрь 1980 г.). «Простой метод оценки скорости эволюции замен оснований посредством сравнительных исследований нуклеотидных последовательностей». Журнал молекулярной эволюции . 16 (2): 111–20. Bibcode : 1980JMolE..16..111K . DOI : 10.1007 / BF01731581 . PMID 7463489 . S2CID 19528200 .

[Hasegawa_1985-31] а б Хасэгава М., Кишино Х., Яно Т. (октябрь 1985 г.). «Датирование расщепления человека и обезьяны по молекулярным часам митохондриальной ДНК». Журнал молекулярной эволюции . 22 (2): 160–74. Bibcode : 1985JMolE..22..160H . DOI : 10.1007 / BF02101694 . PMID 3934395 . S2CID 25554168 .

[:1-32] а б в г Кимура М. (январь 1981 г.). «Оценка эволюционных расстояний между гомологичными нуклеотидными последовательностями» . Труды Национальной академии наук Соединенных Штатов Америки . 78 (1): 454–8. Bibcode : 1981PNAS ... 78..454K . DOI : 10.1073 / pnas.78.1.454 . PMC 319072 . PMID 6165991 .

[Tamura_1993-33] а б Тамура К., Ней М. (май 1993 г.). «Оценка количества замен нуклеотидов в контрольной области митохондриальной ДНК у человека и шимпанзе» . Молекулярная биология и эволюция . 10 (3): 512–26. DOI : 10.1093 / oxfordjournals.molbev.a040023 . PMID 8336541 .

[Zharkikh_1994-34] а б в Жарких А (сентябрь 1994 г.). «Оценка эволюционных расстояний между нуклеотидными последовательностями». Журнал молекулярной эволюции . 39 (3): 315–29. Bibcode : 1994JMolE..39..315Z . DOI : 10.1007 / BF00160155 . PMID 7932793 . S2CID 33845318 .

[35] Huelsenbeck JP, Larget B, Alfaro ME (июнь 2004 г.). «Выбор байесовской филогенетической модели с использованием обратимого скачка цепи Маркова Монте-Карло» . Молекулярная биология и эволюция . 21 (6): 1123–33. DOI : 10.1093 / molbev / msh123 . PMID 15034130 .

[36] Яп В.Б., Пахтер Л. (апрель 2004 г.). «Идентификация эволюционных горячих точек в геномах грызунов» . Геномные исследования . 14 (4): 574–9. DOI : 10.1101 / gr.1967904 . PMC 383301 . PMID 15059998 .

[37] Susko E, Roger AJ (сентябрь 2007 г.). «Об алфавитах сокращенных аминокислот для филогенетического заключения» . Молекулярная биология и эволюция . 24 (9): 2139–50. DOI : 10.1093 / molbev / msm144 . PMID 17652333 .

[38] Пончиано Дж. М., Берли Дж. Г., Браун Э. Л., Конус М. Л. (декабрь 2012 г.). «Оценка идентифицируемости параметров в филогенетических моделях с использованием клонирования данных» . Систематическая биология . 61 (6): 955–72. DOI : 10.1093 / sysbio / sys055 . PMC 3478565 . PMID 22649181 .

[:2-39] а б Уилан С., Голдман Н. (май 2001 г.). «Общая эмпирическая модель эволюции белков, полученная из нескольких семейств белков с использованием подхода максимального правдоподобия» . Молекулярная биология и эволюция . 18 (5): 691–9. DOI : 10.1093 / oxfordjournals.molbev.a003851 . PMID 11319253 .

[40] Braun EL (июль 2018 г.). «Модель эволюции, основанная на физико-химических свойствах аминокислот, выявляет различия между белками» . Биоинформатика . 34 (13): i350 – i356. DOI : 10.1093 / биоинформатики / bty261 . PMC 6022633 . PMID 29950007 .

[41] Голдман Н., Уилан С. (ноябрь 2002 г.). «Новое использование равновесных частот в моделях эволюции последовательности» . Молекулярная биология и эволюция . 19 (11): 1821–31. DOI : 10.1093 / oxfordjournals.molbev.a004007 . PMID 12411592 .

[42] Kosiol C, Holmes I, Goldman N (июль 2007 г.). «Эмпирическая модель кодонов для эволюции белковой последовательности» . Молекулярная биология и эволюция . 24 (7): 1464–79. DOI : 10.1093 / molbev / msm064 . PMID 17400572 .

[43] Тамура К. (июль 1992 г.). «Оценка количества замен нуклеотидов при сильных смещениях трансверсии перехода и содержания G + C» . Молекулярная биология и эволюция . 9 (4): 678–87. DOI : 10.1093 / oxfordjournals.molbev.a040752 . PMID 1630306 .

[44] Халперн А.Л., Бруно В.Дж. (июль 1998 г.). «Эволюционные расстояния для кодирующих белок последовательностей: моделирование частот сайт-специфичных остатков». Молекулярная биология и эволюция . 15 (7): 910–7. DOI : 10.1093 / oxfordjournals.molbev.a025995 . PMID 9656490 . S2CID 7332698 .

[:3-45] а б Браун Э.Л., Кимбалл RT (август 2002 г.). Kjer K (ред.). «Изучение базальных птичьих дивергенций с митохондриальными последовательностями: сложность модели, выборка таксона и длина последовательности» . Систематическая биология . 51 (4): 614–25. DOI : 10.1080 / 10635150290102294 . PMID 12228003 .

[46] Филлипс М.Дж., Делсук Ф., Пенни Д. (июль 2004 г.). «Филогения в масштабе генома и обнаружение систематических ошибок» . Молекулярная биология и эволюция . 21 (7): 1455–8. DOI : 10.1093 / molbev / msh137 . PMID 15084674 .

[47] Исикава С.А., Инагаки Ю., Хашимото Т. (январь 2012 г.). «RY-кодирование и неоднородные модели могут улучшить выводы максимального правдоподобия из данных нуклеотидных последовательностей с параллельной неоднородностью состава» . Эволюционная биоинформатика в Интернете . 8 : 357–71. DOI : 10.4137 / EBO.S9017 . PMC 3394461 . PMID 22798721 .

[48] Simmons MP, Ochoterena H (июнь 2000 г.). «Пробелы как символы в последовательном филогенетическом анализе» . Систематическая биология . 49 (2): 369–81. DOI : 10.1093 / sysbio / 49.2.369 . PMID 12118412 .

[49] Юрий Т., Кимбалл Р.Т., Харшман Дж., Боуи Р.С., Браун М.Дж., Хойновски Д.Л. и др. (Март 2013 г.). «Экономия и модельный анализ инделей в ядерных генах птиц выявляют конгруэнтные и несовместимые филогенетические сигналы» . Биология . 2 (1): 419–44. DOI : 10.3390 / biology2010419 . PMC 4009869 . PMID 24832669 .

[50] Хоуде П., Браун Е.Л., Нарула Н., Минджарес Ю., Мирараб С. (2019-07-06). «Филогенетический сигнал инделей и неоавианское излучение» . Разнообразие . 11 (7): 108. DOI : 10,3390 / d11070108 .

[51] Кавендер Дж. А. (август 1978 г.). «Таксономия с уверенностью». Математические биологические науки . 40 (3–4): 271–280. DOI : 10.1016 / 0025-5564 (78) 90089-5 .

[52] Фаррис Дж. С. (1973-09-01). «Вероятностная модель для вывода эволюционных деревьев» . Систематическая биология . 22 (3): 250–256. DOI : 10.1093 / sysbio / 22.3.250 . ISSN 1063-5157 .

[53] Нейман, Дж. Молекулярные исследования эволюции: источник новых статистических проблем. В молекулярных исследованиях эволюции: источник новых статистических проблем; Gupta, SS, Yackel, J., Eds .; New York Academic Press: Нью-Йорк, Нью-Йорк, США, 1971; С. 1–27.

[54] Уодделл П.Дж., Пенни Д., Мур Т. (август 1997 г.). «Сопряжения Адамара и моделирование эволюции последовательностей с неравными скоростями по сайтам». Молекулярная филогенетика и эволюция . 8 (1): 33–50. DOI : 10.1006 / mpev.1997.0405 . PMID 9242594 .

[55] Дайхофф М. О., Эк Р. В., Парк К. М. (1969). «Модель эволюционного изменения белков» . В Dayhoff MO (ред.). Атлас последовательности и структуры белков . 4 . С. 75–84.

[56] Дайхофф МО, Шварц Р.М., Оркатт Британская Колумбия (1978). «Модель эволюционного изменения белков» (PDF) . В Dayhoff MO (ред.). Атлас последовательности и структуры белков . 5 . С. 345–352.

[57] Хеникофф С., Хеникофф Дж. Г. (ноябрь 1992 г.). «Матрицы аминокислотного замещения из белковых блоков» . Труды Национальной академии наук Соединенных Штатов Америки . 89 (22): 10915–9. Bibcode : 1992PNAS ... 8910915H . DOI : 10.1073 / pnas.89.22.10915 . PMC 50453 . PMID 1438297 .

[58] Альтшул С.Ф. (март 1993 г.). «Система оценки выравнивания белков, чувствительная на всех эволюционных дистанциях». Журнал молекулярной эволюции . 36 (3): 290–300. Bibcode : 1993JMolE..36..290A . DOI : 10.1007 / BF00160485 . PMID 8483166 . S2CID 22532856 .

[59] Кишино Х., Мията Т., Хасегава М. (август 1990 г.). «Максимально правдоподобный вывод филогении белков и происхождения хлоропластов». Журнал молекулярной эволюции . 31 (2): 151–160. Bibcode : 1990JMolE..31..151K . DOI : 10.1007 / BF02109483 . S2CID 24650412 .

[60] Kosiol C, Goldman N (февраль 2005 г.). «Различные версии матрицы ставок Dayhoff» . Молекулярная биология и эволюция . 22 (2): 193–9. DOI : 10.1093 / molbev / msi005 . PMID 15483331 .

[61] Keane TM, Creevey CJ, Pentony MM, Naughton TJ, Mclnerney JO (март 2006 г.). «Оценка методов выбора матрицы аминокислот и их использования на эмпирических данных показывает, что специальные предположения для выбора матрицы не оправданы» . BMC Evolutionary Biology . 6 (1): 29. DOI : 10.1186 / 1471-2148-6-29 . PMC 1435933 . PMID 16563161 .

[62] Бигот Т., Гульельмини Дж., Крискуоло А. (июль 2019 г.). «Данные моделирования для оценки числовых констант для аппроксимации попарных эволюционных расстояний между аминокислотными последовательностями» . Краткие сведения . 25 : 104212. дои : 10.1016 / j.dib.2019.104212 . PMC 6699465 . PMID 31440543 .

[Gonnet1992-63] Гоннет Г. Х., Коэн М. А., Беннер С. А. (июнь 1992 г.). «Исчерпывающее сопоставление всей базы данных последовательностей белков». Наука . 256 (5062): 1443–5. Bibcode : 1992Sci ... 256.1443G . DOI : 10.1126 / science.1604319 . PMID 1604319 .

[Jones1992-64] Джонс Д. Т., Тейлор В. Р., Торнтон Дж. М. (июнь 1992 г.). «Быстрое создание матриц данных о мутациях из белковых последовательностей». Компьютерные приложения в биологических науках . 8 (3): 275–82. DOI : 10.1093 / биоинформатики / 8.3.275 . PMID 1633570 .

[65] Le SQ, Gascuel O (июль 2008 г.). «Улучшенная матрица общих аминокислотных замен» . Молекулярная биология и эволюция . 25 (7): 1307–20. DOI : 10.1093 / molbev / msn067 . PMID 18367465 .

[66] Мюллер Т., Вингрон М. (декабрь 2000 г.). «Моделирование аминокислотного замещения». Журнал вычислительной биологии . 7 (6): 761–76. DOI : 10.1089 / 10665270050514918 . PMID 11382360 .

[67] Veerassamy S, Smith A, Tillier ER (декабрь 2003 г.). «Модель вероятности перехода для аминокислотных замен из блоков». Журнал вычислительной биологии . 10 (6): 997–1010. DOI : 10.1089 / 106652703322756195 . PMID 14980022 .

[68] Таффли С., Сталь М (май 1997 г.). «Связи между максимальной вероятностью и максимальной экономией при простой модели подмены сайта». Вестник математической биологии . 59 (3): 581–607. DOI : 10.1007 / bf02459467 . PMID 9172826 . S2CID 189885872 .

[69] Holder MT, Льюис П.О., Своффорд Д.Л. (июль 2010 г.). «Информационный критерий акаике не выберет модель отсутствия общего механизма» . Систематическая биология . 59 (4): 477–85. DOI : 10.1093 / sysbio / syq028 . PMID 20547783 . Хорошая модель для филогенетического вывода должна быть достаточно богатой, чтобы иметь дело с источниками шума в данных, но оценка ML, проводимая с использованием моделей с явно завышенными параметрами, может привести к совершенно неверным выводам. Модель NCM, безусловно, слишком богата параметрами, чтобы служить оправданием использования экономии, основанной на том, что она является оценкой машинного обучения в рамках общей модели.

[13] Ссылка описывает полемику #ParsimonyGate, которая представляет собой конкретный пример дискуссии о философской природе критерия максимальной экономии. #ParsimonyGate - это реакция в Твиттере на передовую статью в журнале Cladistics, опубликованную Обществом Вилли Хеннига. В редакционной статье говорится, что «... эпистемологической парадигмой этого журнала является экономия», и утверждается, что существуют философские причины предпочесть экономию другим методам филогенетического вывода. Поскольку другие методы филогенетического вывода (например, максимальное правдоподобие, байесовский вывод, филогенетические инварианты и большинство дистанционных методов) основаны на моделях, это утверждение неявно отвергает представление о том, что экономия является моделью.

[1]