Из Википедии, бесплатной энциклопедии
  (Перенаправлено с Максимальной экономии )
Перейти к навигации Перейти к поиску

В филогенетики , максимальный скупость является критерий оптимальности , при котором филогенетическое дерево , что сводит к минимуму общее количество символов изменений состояния является предпочтительным. В соответствии с критерием максимальной экономии оптимальное дерево минимизирует количество гомоплазии (т. Е. Конвергентную эволюцию , параллельную эволюцию и эволюционные повороты ). Другими словами, в соответствии с этим критерием наилучшим считается самое короткое дерево, которое объясняет данные. Принцип сродни бритве Оккама., который гласит, что при прочих равных должна быть выбрана простейшая гипотеза, объясняющая данные. Некоторые из основных идей максимальной экономии были представлены Джеймсом С. Фаррисом [1] в 1970 году и Уолтером М. Фитчем в 1971 году [2].

Максимальная экономия - интуитивно понятный и простой критерий, и именно поэтому он популярен. Однако, хотя это легко забить филогенетическое дерево (путем подсчета количества символов изменений состояния), не существует алгоритма , чтобы быстро произвести наиболее экономное-дерево. Вместо этого самое экономное дерево должно быть найдено в «пространстве дерева» (т. Е. Среди всех возможных деревьев). Для небольшого количества таксонов (т.е. менее девяти) можно провести исчерпывающий поиск , в котором оценивается каждое возможное дерево и выбирается лучшее. Для девяти-двадцати таксонов, как правило, предпочтительнее использовать ветвление и переплетение , что также гарантирует получение лучшего дерева. Для большего количества таксонов эвристический поиск должен быть выполнен.

Поскольку наиболее экономное дерево всегда является самым коротким деревом, это означает, что по сравнению с «истинным» деревом, которое фактически описывает эволюционную историю изучаемых организмов, «лучшее» дерево в соответствии с критерием максимальной экономии будет часто недооценивают произошедшие эволюционные изменения. Кроме того, максимальная экономия статистически несовместима. То есть не гарантируется создание истинного дерева с высокой вероятностью при наличии достаточных данных. Как было продемонстрировано в 1978 году Джо Felsenstein , [3] максимальное скупость может быть несовместимыми при определенных условиях, например, длинной ветви притяжения. Конечно, любой филогенетический алгоритм также может быть статистически несовместимым, если модель, которую он использует для оценки предпочтительного дерева, не точно соответствует тому, как происходила эволюция в этой кладе. Это непостижимо. Следовательно, хотя статистическая согласованность является интересным теоретическим свойством, оно выходит за рамки проверяемости и не имеет отношения к эмпирическим филогенетическим исследованиям. [4]

Альтернативная характеристика и обоснование [ править ]

Максимизация экономичности (предпочтение более простой из двух в остальном одинаково адекватных теорий) оказалась полезной во многих областях. Бритва Оккама , принцип теоретической экономии, предложенный Уильямом Оккамом в 1320-х годах, утверждал, что напрасно давать объяснения, которые включают больше предположений, чем необходимо.

С другой стороны, филогенетическая экономия может быть охарактеризована как предпочтение деревьев, которые максимизируют объяснительную силу за счет минимизации количества наблюдаемых сходств, которые не могут быть объяснены наследованием или общим происхождением. [5] [6] Минимизация необходимых эволюционных изменений, с одной стороны, и максимизация наблюдаемых сходств, которые могут быть объяснены как гомология, с другой, могут привести к различным предпочтительным деревьям, когда некоторые наблюдаемые особенности не применимы в некоторых группах, которые включены в tree, и последнее можно рассматривать как более общий подход. [7] [8] [9]

Хотя эволюция не является по своей сути скупым процессом, многовековой научный опыт подтверждает вышеупомянутый принцип бережливости ( бритва Оккама ). А именно, предположение о более простой, более скупой цепочке событий предпочтительнее, чем предположение о более сложной, менее скупой цепочке событий. Следовательно, экономия ( sensu lato ) обычно используется при построении филогенетических деревьев и в научном объяснении в целом. [10]

Подробно [ править ]

Экономия - это часть класса методов оценки деревьев на основе символов, которые используют матрицу дискретных филогенетических признаков для вывода одного или нескольких оптимальных филогенетических деревьев для набора таксонов , обычно набора видов или репродуктивно изолированных популяций одного вида. Эти методы работают путем оценки кандидатов филогенетических деревьев в соответствии с явным критерием оптимальности.; дерево с наиболее благоприятной оценкой считается наилучшей оценкой филогенетических взаимоотношений включенных таксонов. Максимальная экономия используется с большинством филогенетических данных; до недавнего времени это был единственный широко используемый метод оценки дерева на основе символов, используемый для морфологических данных.

Оценка филогении - нетривиальная задача. Для любого набора таксонов разумного размера существует огромное количество возможных филогенетических деревьев; например, всего десять видов дают более двух миллионов возможных неукорененных деревьев. Эти возможности необходимо искать, чтобы найти дерево, которое наилучшим образом соответствует данным в соответствии с критерием оптимальности. Однако сами данные не приводят к простому арифметическому решению проблемы. В идеале мы должны ожидать, что распределение любых эволюционных признаков (таких как фенотипические признаки или аллели)), чтобы прямо следовать схеме ветвления эволюции. Таким образом, мы могли бы сказать, что если два организма обладают общим признаком, они должны быть более тесно связаны друг с другом, чем с третьим организмом, у которого отсутствует этот признак (при условии, что этот признак не присутствовал в последнем общем предке всех трех, и в этом случае это была бы симплезиоморфия ). Мы могли бы предсказать, что летучие мыши и обезьяны более тесно связаны друг с другом, чем со слоном, потому что летучие мыши и обезьяны-самцы обладают внешними яичками., чего не хватает слонам. Однако мы не можем сказать, что летучие мыши и обезьяны более тесно связаны друг с другом, чем с китами, хотя у этих двоих внешние яички отсутствуют у китов, потому что мы полагаем, что самцы последнего общего предкового вида из трех имели внешние яички. .

Однако явления конвергентной эволюции , параллельной эволюции и эволюционных поворотов (в совокупности называемые гомоплазией)) добавляют неприятную морщину к проблеме оценки филогении. По ряду причин два организма могут обладать признаком, отсутствующим у их последнего общего предка: если бы мы наивно приняли наличие этого признака как свидетельство родства, мы бы реконструировали неверное дерево. Настоящие филогенетические данные включают существенную гомоплазию, причем разные части данных предполагают иногда очень разные отношения. Методы, используемые для оценки филогенетических деревьев, явно предназначены для разрешения конфликта в данных путем выбора филогенетического дерева, которое лучше всего подходит для всех данных в целом, принимая, что некоторые данные просто не подходят. Часто ошибочно полагают, что экономия предполагает редкость конвергенции; на самом деле, даже конвергентно полученные символы имеют некоторую ценность в филогенетическом анализе, основанном на максимальной экономии,и преобладание конвергенции систематически не влияет на результаты методов, основанных на экономии.[11]

Данные, которые не соответствуют дереву, не являются просто «шумом», они могут содержать релевантный филогенетический сигнал в некоторых частях дерева, даже если они конфликтуют с деревом в целом. В приведенном выше примере с китами отсутствие наружных яичек у китов является гомопластическим: оно отражает возвращение к состоянию, присутствующему у древних предков млекопитающих, у которых яички были внутренними. Это сходство между китами и предками древних млекопитающих противоречит принятому нами дереву, поскольку подразумевает, что млекопитающие с внешними яичками должны образовывать группу, за исключением китов. Однако у китов обращение к внутренним яичкам на самом деле правильно связывает различные типы китов (включая дельфинов и морских свиней) с группой китообразных.. Тем не менее, определение наиболее подходящего дерева - и, следовательно, того, какие данные не соответствуют дереву - представляет собой сложный процесс. Максимальная экономия - один из методов, разработанных для этого.

Данные персонажа [ править ]

Входные данные, используемые в анализе максимальной экономии, представлены в форме «знаков» для ряда таксонов. Не существует общепринятого определения филогенетического признака, но с практической точки зрения признак можно рассматривать как атрибут, ось, вдоль которой наблюдаются изменения таксонов. Эти атрибуты могут быть физическими (морфологическими), молекулярными, генетическими, физиологическими или поведенческими. Единственное широко распространенное согласие относительно характеров, по-видимому, состоит в том, что вариации, используемые для анализа характера, должны отражать наследственные вариации . Должно ли это быть прямым наследуемым, или допустимо косвенное наследование (например, приобретенное поведение), полностью не решено.

Каждый символ разделен на отдельные состояния символа , по которым классифицируются наблюдаемые вариации. Состояния символов часто формулируются как дескрипторы, описывающие состояние символьной основы. Например, символ «цвет глаз» может иметь состояния «синий» и «коричневый». Персонажи могут иметь два или более состояний (у них может быть только одно, но эти символы ничего не дают для анализа максимальной экономии и часто исключаются).

Кодирование символов для филогенетического анализа не является точной наукой, и существует множество сложных вопросов. Как правило, таксоны оцениваются по одному и тому же состоянию, если они больше похожи друг на друга по этому конкретному признаку, чем каждый из таксонов, оцениваемых по другому состоянию. Это непросто, когда состояния персонажа четко не очерчены или когда они не могут уловить все возможные вариации персонажа. Как можно оценить ранее упомянутый персонаж для таксона (или индивидуума) с карими глазами? Или зеленый? Как отмечалось выше, кодирование символов обычно основано на сходстве: карие и зеленые глаза могут быть смешаны с синими, потому что они больше похожи на этот цвет (будучи светлыми), а затем символ может быть перекодирован как «цвет глаз: светлый; темный. " В качестве альтернативы могут быть символы с несколькими состояниями,например «цвет глаз: карие; карие, голубые; зеленые».

Неоднозначность в определении и оценке состояния характера может быть основным источником путаницы, споров и ошибок в филогенетическом анализе с использованием данных персонажа. Обратите внимание, что в приведенном выше примере «глаза: присутствует; отсутствует» также является возможным символом, что создает проблемы, потому что «цвет глаз» неприменим, если глаза отсутствуют. Для таких ситуаций знак "?" («неизвестно») оценивается, хотя иногда «X» или «-» (последние обычно последовательноdata) используются, чтобы отличить случаи, когда персонаж не может быть оценен, от случая, когда состояние просто неизвестно. Текущие реализации максимальной экономии обычно обрабатывают неизвестные значения таким же образом: причины, по которым данные неизвестны, не имеют особого влияния на анализ. Эффективно программа лечит? как если бы он удерживал состояние, которое будет включать наименьшее количество дополнительных шагов в дереве (см. ниже), хотя это не явный шаг в алгоритме.

Генетические данные особенно подходят для основанных на признаках филогенетических методов, таких как максимальная экономия, поскольку белковые и нуклеотидные последовательности естественным образом дискретны: конкретное положение в нуклеотидной последовательности может быть либо аденином , цитозином , гуанином или тимином / урацилом , либо разрывом в последовательности ; положение ( остаток ) в последовательности белка будет одной из основных аминокислот или пробелом в последовательности. Таким образом, оценка символов редко бывает неоднозначной, за исключением случаев, когда последовательностьметоды не могут произвести окончательное присвоение конкретной позиции последовательности. Пробелы в последовательности иногда рассматриваются как символы, хотя единого мнения о том, как их следует кодировать, нет.

Символы можно рассматривать как неупорядоченные или упорядоченные. Для двоичного символа (с двумя состояниями) это не имеет большого значения. Для персонажа с несколькими состояниями неупорядоченные символы могут рассматриваться как имеющие одинаковую «стоимость» (с точки зрения количества «эволюционных событий») для перехода из одного состояния в любое другое; дополнительно они не требуют прохождения через промежуточные состояния. Упорядоченные символы имеют особую последовательность, в которой состояния должны происходить в процессе эволюции, так что переход между некоторыми состояниями требует прохождения через промежуточное звено. Это можно рассматривать как дополнение к разным затратам, передаваемым между разными парами состояний. В приведенном выше примере цвета глаз его можно оставить неупорядоченным, что требует той же эволюционной «стоимости» перехода от коричнево-синего, зеленого-синего, зеленого-орехового и т. Д.Как вариант, можно заказать коричнево-орехово-зелено-синий; обычно это означало бы, что для перехода от коричнево-зеленого к зеленому, трех от коричнево-синего и только одного от коричнево-орехового всего до одного. Это также можно рассматривать как требование, чтобы глаза эволюционировали через «карие стадию», чтобы перейти от коричневого к зеленому, и «зеленую стадию», чтобы перейти от карие к синему и т. Д. Для многих персонажей не очевидно, если и как их надо заказывать. Напротив, для символов, которые представляют дискретизацию лежащей в основе непрерывной переменной, такой как символы формы, размера и соотношения, порядок логичен,Это также можно рассматривать как требование, чтобы глаза эволюционировали через «карие стадию», чтобы перейти от коричневого к зеленому, и «зеленую стадию», чтобы перейти от карие к синему и т. Д. Для многих персонажей не очевидно, если и как их надо заказывать. Напротив, для символов, которые представляют дискретизацию лежащей в основе непрерывной переменной, такой как символы формы, размера и соотношения, порядок логичен,Это также можно рассматривать как требование, чтобы глаза эволюционировали через «карие стадию», чтобы перейти от коричневого к зеленому, и «зеленую стадию», чтобы перейти от карие к синему и т. Д. Для многих персонажей не очевидно, если и как их надо заказывать. Напротив, для символов, которые представляют дискретизацию лежащей в основе непрерывной переменной, такой как символы формы, размера и соотношения, порядок логичен,[12] и моделирование показали, что это улучшает способность восстанавливать правильные клады, уменьшая при этом восстановление ошибочных клад. [13] [14] [15]

О полезности и целесообразности упорядочивания персонажей ведутся оживленные дискуссии, но единого мнения нет. Некоторые авторитеты упорядочивают персонажей при наличии четкого логического, онтогенетического или эволюционного перехода между состояниями (например, «ноги: короткие; средние; длинные»). Некоторые принимают только некоторые из этих критериев. Некоторые проводят неупорядоченный анализ и упорядочивают символы, которые показывают четкий порядок переходов в результирующем дереве (эту практику можно обвинить в круговой аргументации ). Некоторые авторитеты вообще отказываются упорядочивать персонажей, предполагая, что это искажает анализ, требуя эволюционных переходов для следования определенному пути.

Также можно применить дифференциальное взвешивание к отдельным символам. Обычно это делается относительно «стоимости», равной 1. Таким образом, некоторые признаки могут рассматриваться как более вероятно отражающие истинные эволюционные отношения между таксонами, и, таким образом, они могут быть взвешены по значению 2 или более; изменения в этих персонажах будут тогда засчитываться как два эволюционных «шага», а не за один при подсчете оценок дерева (см. ниже). В прошлом было много дискуссий о взвешивании персонажей. Большинство авторитетов теперь оценивают всех персонажей одинаково, хотя исключения случаются. Например, частота аллеляданные иногда объединяются в бункеры и оцениваются как упорядоченный символ. В этих случаях вес самого признака часто понижается, так что небольшие изменения в частотах аллелей учитываются меньше, чем значительные изменения других признаков. Кроме того, положение третьего кодона в кодирующей нуклеотидной последовательности является особенно лабильным и иногда занижает вес или принимает вес, равный 0, исходя из предположения, что это с большей вероятностью проявляет гомоплазию. В некоторых случаях проводят повторные анализы с повторным взвешиванием признаков обратно пропорционально степени гомоплазии, обнаруженной в предыдущем анализе (это называется последовательным взвешиванием ); это еще один прием, который можно считать круговым рассуждением .

Изменения состояния персонажа также могут быть взвешены индивидуально. Это часто делается для данных нуклеотидной последовательности ; эмпирически установлено, что одни базовые изменения (AC, AT, GC, GT и обратные изменения) происходят гораздо реже, чем другие (AG, CT и их обратные изменения). Поэтому эти изменения часто имеют больший вес. Как показано выше при обсуждении порядка символов, упорядоченные символы можно рассматривать как форму взвешивания состояния символа.

Некоторые систематики предпочитают исключать символы, о которых известно или подозревается в высокой степени гомопластичности или которые имеют большое количество неизвестных записей («?»). Как отмечено ниже, теоретические исследования и моделирование продемонстрировали, что это скорее принесет в жертву точности, чем повысит ее. То же самое и с признаками, которые изменчивы в терминальных таксонах: теоретические исследования, исследования конгруэнтности и моделирования продемонстрировали, что такие полиморфные признаки содержат важную филогенетическую информацию. [ необходима цитата ]

Выборка таксона [ править ]

Время, необходимое для анализа экономичности (или любого филогенетического анализа), пропорционально количеству таксонов (и признаков), включенных в анализ. Кроме того, поскольку большее количество таксонов требует оценки большего числа ветвей, в больших анализах можно ожидать большей неопределенности. Поскольку затраты времени и денег на сбор данных часто напрямую зависят от количества включенных таксонов, большинство анализов включает только часть таксонов, которые могли быть взяты. В самом деле, некоторые авторы утверждали, что четыре таксона (минимум, необходимый для создания значимого дерева без корней) - это все, что необходимо для точного филогенетического анализа, и что больше признаков более ценны, чем больше таксонов в филогенетике. Это привело к ожесточенным спорам по поводу выборки таксонов.

Эмпирические, теоретические и имитационные исследования привели к ряду ярких демонстраций важности адекватной выборки таксонов. Большинство из них можно резюмировать простым наблюдением: матрица филогенетических данных имеет размерность знаков, умноженных на таксоны. Удвоение количества таксонов увеличивает вдвое количество информации в матрице так же верно, как удвоение количества знаков. Каждый таксон представляет собой новый образец для каждого символа, но, что более важно, он (обычно) представляет новую комбинациюсостояний характера. Эти состояния признаков могут не только определять, где этот таксон помещен на дереве, они могут информировать весь анализ, возможно, вызывая предпочтение различных отношений между оставшимися таксонами, изменяя оценки паттерна изменений признаков.

Самая тревожная слабость анализа экономичности - привлекательность длинных ветвей (см. Ниже) - особенно ярко проявляется при плохой выборке таксонов, особенно в случае с четырьмя таксонами. Это хорошо известный случай, когда дополнительная выборка символов не может улучшить качество оценки. По мере добавления таксонов они часто разделяют длинные ветви (особенно в случае окаменелостей), эффективно улучшая оценку изменений состояния признаков вдоль них. Из-за обилия информации, добавляемой при выборке таксонов, можно даже производить высокоточные оценки филогении с сотнями таксонов, используя всего несколько тысяч знаков. [ необходима цитата ]

Несмотря на то, что было проведено множество исследований, предстоит еще много работы по стратегиям выборки таксонов. Из-за достижений в производительности компьютеров, а также снижения стоимости и увеличения автоматизации молекулярного секвенирования, размеры выборки в целом растут, и исследования, посвященные взаимосвязям сотен таксонов (или других конечных объектов, таких как гены), становятся обычным явлением. Конечно, это не означает, что добавление символов также бесполезно; количество символов также увеличивается.

Некоторые систематики предпочитают исключать таксоны на основании количества отображаемых в них неизвестных знаков («?») Или из-за того, что они имеют тенденцию «прыгать» по дереву при анализе (т.е. Как отмечено ниже, теоретические исследования и моделирование показали, что это скорее принесет в жертву точности, чем повысит ее. Хотя эти таксоны могут генерировать более экономные деревья (см. Ниже), такие методы, как поддеревья согласия и уменьшенный консенсус, все же могут извлекать информацию об интересующих взаимосвязях.

Было замечено, что включение большего количества таксонов имеет тенденцию к снижению общих значений поддержки ( бутстраппроценты или индексы распада, см. ниже). Причина этого ясна: по мере того, как к дереву добавляются дополнительные таксоны, они разделяют ветви, к которым они прикрепляются, и таким образом разбавляют информацию, которая поддерживает эту ветвь. В то время как поддержка отдельных ветвей уменьшается, поддержка общих отношений фактически увеличивается. Рассмотрим анализ, который дает следующее дерево: (рыба, (ящерица, (кит, (кошка, обезьяна)))). Добавление крысы и моржа, вероятно, уменьшит поддержку клады (кит, (кошка, обезьяна)), потому что крыса и морж могут попасть в эту кладу или за ее пределы, и поскольку все эти пять животных относительно тесно связаны, должно быть больше неуверенности в их отношениях. В пределах ошибки может быть невозможно определить отношения этих животных друг к другу. Тем не мение,крыса и морж, вероятно, добавят характерные данные, которые закрепят группировку любых двух из этих млекопитающих, за исключением рыбы или ящерицы; где первоначальный анализ мог быть введен в заблуждение, скажем, наличием плавников у рыбы и кита, наличием моржа с жиром и плавниками, как у кита, но усами, как у кошки и крысы, прочно привязывает кита к млекопитающие.

Чтобы справиться с этой проблемой, поддеревья согласия , уменьшенный консенсус и анализ двойного распада стремятся определить поддерживаемые отношения (в форме «утверждений о n-таксонах», таких как утверждение о четырех таксонах »(рыба, (ящерица, (кошка , кит))) ") а не целые деревья. Если целью анализа является решенное дерево, как в случае сравнительной филогенетики , эти методы не могут решить проблему. Однако, если оценка дерева так плохо поддерживается, результаты любого анализа, полученного на основе дерева, вероятно, будут слишком подозрительными, чтобы их все равно использовать.

Анализ [ править ]

Анализ максимальной экономии выполняется очень просто. Деревья оцениваются в соответствии со степенью, в которой они подразумевают скупое распределение символьных данных. Самое экономное дерево для набора данных представляет собой предпочтительную гипотезу о взаимосвязях между таксонами в анализе.

Деревья оцениваются (оцениваются) с использованием простого алгоритма, чтобы определить, сколько «шагов» (эволюционных переходов) требуется для объяснения распределения каждого символа. Шаг - это, по сути, переход от одного состояния символа к другому, хотя с упорядоченными символами некоторые переходы требуют более одного шага. Вопреки широко распространенному мнению, алгоритм не назначает явно определенные состояния символов узлам (соединениям ветвей) на дереве: наименьшее количество шагов может включать в себя несколько одинаково затратных назначений и распределений эволюционных переходов. Оптимизируется общее количество изменений.

Существует гораздо больше возможных филогенетических деревьев, чем можно провести исчерпывающим поиском по более чем восьми таксонам или около того. Поэтому для поиска среди возможных деревьев используется ряд алгоритмов. Многие из них включают взятие начального дерева (обычно предпочтительное дерево из последней итерации алгоритма) и его возмущение, чтобы увидеть, дает ли изменение более высокий балл.

Деревья, полученные в результате поиска экономичности, не имеют корней: они показывают все возможные отношения включенных таксонов, но в них отсутствуют какие-либо сведения об относительном времени дивергенции. Конкретная ветвь выбирается пользователем для укоренения дерева. Затем считается, что эта ветвь находится вне всех других ветвей дерева, которые вместе образуют монофилетическую группу. Это придает дереву ощущение относительного времени. Неправильный выбор корня может привести к неправильным отношениям в дереве, даже если само дерево является правильным в своей некорневой форме.

Анализ экономичности часто возвращает ряд столь же экономных деревьев (MPT). Большое количество MPT часто рассматривается как аналитический сбой и, как многие полагают, связано с количеством пропущенных записей («?») В наборе данных, символами, показывающими слишком много гомоплазии, или наличием топологически лабильных «подстановочных знаков». таксоны (в которых может быть много пропущенных записей). Было предложено множество методов для уменьшения количества MPT, включая удаление признаков или таксонов с большим объемом недостающих данных перед анализом, удаление или снижение веса высокогомопластных признаков ( последовательное взвешивание ) или удаление таксонов с подстановочными знаками (метод филогенетического ствола ) апостериори, а затем повторный анализ данных.

Многочисленные теоретические исследования и имитационные исследования показали, что высокогомопластные признаки, признаки и таксоны с большим количеством пропущенных данных, а также таксоны с «маскировкой» способствуют анализу. Хотя исключение признаков или таксонов может показаться для улучшения разрешения, результирующее дерево основано на меньшем количестве данных и, следовательно, является менее надежной оценкой филогении (если признаки или таксоны не являются информативными, см. Безопасную таксономическую редукцию). Сегодняшний общий консенсус состоит в том, что наличие нескольких MPT является достоверным аналитическим результатом; он просто указывает на то, что данных недостаточно для полного разрешения дерева. Во многих случаях существует значительная общая структура в MPT, а различия незначительны и включают неопределенность в размещении нескольких таксонов. Существует ряд методов для обобщения взаимосвязей в этом наборе, включая деревья консенсуса , которые показывают общие отношения между всеми таксонами, и обрезанные поддеревья соглашения , которые показывают общую структуру путем временного удаления таксонов с подстановочными знаками из каждого дерева, пока все они не согласятся. . Сниженный консенсус делает еще один шаг вперед, показывая все поддеревья (и, следовательно, все отношения), поддерживаемые входными деревьями.

Даже если возвращено несколько MPT, экономичный анализ по-прежнему дает точечную оценку без каких-либо доверительных интервалов . Это часто называют критикой, поскольку, безусловно, есть ошибка в оценке самого экономного дерева, и метод по своей сути не включает никаких средств определения того, насколько чувствительны его выводы к этой ошибке. Для оценки поддержки использовалось несколько методов.

Отбор и бутстреппинг , известная статистическая передискретизацияпроцедуры, использовались с анализом экономичности. Складной нож, который включает в себя повторную выборку без замены («исключение одного»), может применяться к признакам или таксонам; в последнем случае интерпретация может усложниться, поскольку интересующей переменной является дерево, а сравнение деревьев с разными таксонами не является простым делом. Бутстрап, передискретизация с заменой (выборка x элементов случайным образом из выборки размера x, но элементы могут быть выбраны несколько раз), используется только для символов, потому что добавление повторяющихся таксонов не меняет результат анализа экономичности. Бутстрап гораздо чаще используется в филогенетике (как и везде); оба метода предполагают произвольное, но большое количество повторений, включающих возмущение исходных данных с последующим анализом.Результирующие MPT из каждого анализа объединяются, и результаты обычно представляются на 50%Дерево консенсуса правила большинства , с отдельными ветвями (или узлами), помеченными процентом начальных MPT, в которых они появляются. Этот «процент начальной загрузки» (который не является P-значением , как иногда утверждают) используется в качестве меры поддержки. Технически предполагается, что это мера повторяемости, вероятность того, что эта ветвь (узел, кладка) будет восстановлена, если образцы таксонов будут снова взяты. Экспериментальные тесты с вирусной филогенетикой показывают, что процент бутстрапа не является хорошим показателем повторяемости для филогенетики, но это разумный показатель точности. [ необходима цитата ]Фактически, было показано, что процент начальной загрузки, как оценка точности, смещен, и что это смещение приводит в среднем к заниженной оценке достоверности (например, всего лишь 70% поддержки может действительно указывать на доверие до 95%). ). Однако направление смещения не может быть установлено в отдельных случаях, поэтому предположение, что поддержка бутстрапа с высокими значениями указывает на еще большую уверенность, неоправданно.

Другим средством оценки поддержки является поддержка Бремер , [16] [17] или индекс распада , который является параметром данного набора данных, а не оценка на основе pseudoreplicated подвыборок, как и процедуры начальной загрузки и складного ножа описано выше. Поддержка Бремера (также известная как поддержка ветвей) - это просто разница в количестве шагов между оценкой MPT (ов) и оценкой самого экономного дерева, которое несодержат конкретную кладу (узел, ветвь). Это можно представить как количество шагов, которые вы должны добавить, чтобы потерять кладу; неявно, это означает предположить, насколько велика должна быть ошибка в оценке балла MPT, чтобы клад больше не поддерживался анализом, хотя это не обязательно то, что она делает. Значения поддержки ветвей часто довольно низки для наборов данных небольшого размера (обычно один или два шага), но они часто оказываются пропорциональными процентам начальной загрузки. По мере того, как матрицы данных становятся больше, значения поддержки ветвей часто продолжают увеличиваться, поскольку значения начальной загрузки достигают 100%. Таким образом, для больших матриц данных значения поддержки ветвей могут предоставить более информативные средства для сравнения поддержки строго поддерживаемых ветвей. [18] Однако интерпретация значений распада непроста, и они, кажется, предпочитаются авторами с философскими возражениями против бутстрапа (хотя многие морфологические систематики, особенно палеонтологи, сообщают и то, и другое). Анализ двойного распада - это аналог сокращенного консенсуса, который оценивает индекс распада для всех возможных взаимосвязей поддеревьев (операторов n-таксонов) в пределах дерева.

Проблемы с филогенетическим выводом максимальной экономии [ править ]

Пример притяжения длинной ветки . Если ветви A и C имеют большое количество замен в «истинном дереве» (предполагается, но фактически не известно, кроме как при моделировании), тогда экономия может интерпретировать параллельные изменения как синапоморфии и группы A и C вместе. 

Максимальная экономия - это эпистемологически простой подход, который делает несколько механистических предположений и популярен по этой причине. Однако при определенных обстоятельствах он может быть статистически несовместимым. Последовательность, в данном случае означающая монотонную сходимость в правильном ответе с добавлением дополнительных данных, является желательным свойством статистических методов . Как было продемонстрировано в 1978 году Джо Felsenstein , [3] максимальное скупость может быть несовместимыми при определенных условиях. Категория ситуаций, в которых это, как известно, происходит, называется притяжением длинной ветви., и возникает, например, когда есть длинные ответвления (высокий уровень замен) для двух символов (A и C), но короткие ответвления для других двух (B и D). A и B расходились от общего предка, как и C и D.

Предположим для простоты, что мы рассматриваем один двоичный символ (он может быть либо +, либо -). Поскольку расстояние от B до D невелико, в подавляющем большинстве случаев B и D будут одинаковыми. Здесь мы будем предполагать, что они оба имеют + (+ и - назначаются произвольно, и их замена - это только вопрос определения). В этом случае остается четыре возможности. A и C могут быть +, и в этом случае все таксоны одинаковы, и все деревья имеют одинаковую длину. A может быть +, а C может быть -, и в этом случае отличается только один символ, и мы ничего не можем узнать, так как все деревья имеют одинаковую длину. Точно так же A может быть - и C может быть +. Единственная оставшаяся возможность состоит в том, что A и C оба -. Однако в этом случае данные свидетельствуют о том, что A и C группируются вместе, а B и D вместе. Как следствие, если "истинное дерево »- это дерево этого типа, чем больше данных мы собираем (т. е. чем больше символов мы изучаем), тем больше свидетельств будет поддерживать неправильное дерево. Конечно, за исключением математического моделирования, мы никогда не узнаем, что такое« истинное дерево » "есть". Таким образом, если мы не сможем разработать модель, которая гарантированно точно восстанавливает "истинное дерево", любой другой критерий оптимальности или схема взвешивания также могут, в принципе, быть статистически несовместимыми. Суть в том, что, хотя статистические Несогласованность - интересная теоретическая проблема, это эмпирически чисто метафизическая проблема, выходящая за рамки эмпирического тестирования. Любой метод может быть непоследовательным, и нет никакого способа узнать наверняка, так оно или нет.Именно по этой причине многие систематики характеризуют свои филогенетические результаты как гипотезы родства.

Еще одна сложность с максимальной экономией и другими филогенетическими методами, основанными на критериях оптимальности, заключается в том, что поиск самого короткого дерева является NP-трудной задачей. [19] Единственный доступный в настоящее время эффективный способ получения решения для произвольно большого набора таксонов - использование эвристических методов, которые не гарантируют, что будет восстановлено самое короткое дерево. Эти методы используют алгоритмы подъема на холм, чтобы постепенно приближаться к лучшему дереву. Однако было показано, что могут существовать «островки деревьев» субоптимальных решений, и анализ может попасть в ловушку этих локальных оптимумов.. Таким образом, требуется сложная и гибкая эвристика, чтобы гарантировать, что пространство дерева было адекватно исследовано. Доступно несколько эвристик, в том числе обмен ближайшими соседями (NNI), повторное соединение с разделением дерева пополам (TBR) и храповик экономного режима .

Критика [ править ]

Утверждалось, что главная проблема, особенно для палеонтологии , заключается в том, что максимальная экономия предполагает, что единственный способ, которым два вида могут иметь один и тот же нуклеотид в одном и том же положении, - это если они генетически связаны. [ необходима цитата ] Здесь утверждается, что филогенетические применения экономичности предполагают, что все сходства гомологичны (другие интерпретации, такие как утверждение о том, что два организма вообще не могут быть связаны между собой, бессмысленны). Это категорически не так: как и в случае любой другой формы оценки филогенеза на основе характера, экономия используется для проверки гомологичной природы сходства путем поиска филогенетического дерева, которое лучше всего объясняет все сходства.

Часто утверждается, что экономия не имеет отношения к филогенетическим выводам, потому что «эволюция не экономична». [ необходима цитата ] В большинстве случаев не предлагается явной альтернативы; если нет альтернативы, предпочтительнее использовать любой статистический метод, чем его вообще не использовать. Кроме того, неясно, что бы мы имели в виду, если бы утверждение «эволюция экономно» было на самом деле верным. Это может означать, что исторически могло произойти больше изменений характера, чем прогнозируется с использованием критерия экономности. Поскольку оценка филогении экономия восстанавливает минимальное количество изменений, необходимых для объяснения дерева, это вполне возможно. Тем не менее, это было продемонстрировано с помощью имитационных исследований, тестирования с известными in vitroвирусной филогении и согласованности с другими методами, что точность экономии в большинстве случаев не снижается. Анализ экономичности использует количество изменений символов на деревьях, чтобы выбрать лучшее дерево, но не требует, чтобы именно столько изменений, и не более того, привело к дереву. Пока изменения, которые не были учтены, случайным образом распределяются по дереву (разумное нулевое ожидание), результат не должен быть смещенным. На практике это надежный метод: максимальная экономия демонстрирует минимальную предвзятость в результате выбора дерева с наименьшим количеством изменений.

Можно провести аналогию с выбором подрядчиков на основе их первоначальной (необязательной) оценки стоимости работы. Фактическая стоимость готовой продукции, скорее всего, будет выше предполагаемой. Несмотря на это, выбор подрядчика, предоставившего наименьшую смету, теоретически должен привести к наименьшей окончательной стоимости проекта. Это связано с тем, что при отсутствии других данных мы могли бы предположить, что все соответствующие подрядчики имеют одинаковый риск перерасхода средств. На практике, конечно, недобросовестная деловая практика может повлиять на этот результат; в филогенетике тоже некоторые частные филогенетические проблемы (например, притяжение длинных ветвей, описанный выше) может потенциально исказить результаты. Однако в обоих случаях невозможно определить, будет ли результат смещен, или степень, в которой он будет смещен, на основе самой оценки. С осторожностью также невозможно сказать, что данные заведомо вводят в заблуждение, без сравнения с другими доказательствами.

Экономия часто характеризуется как неявное принятие позиции, согласно которой эволюционные изменения редки или что гомоплазия (конвергенция и разворот) минимальна в эволюции. Это не совсем так: экономия сводит к минимуму количество сходимостей и поворотов, которые предполагаются предпочтительным деревом, но это может привести к относительно большому количеству таких гомопластических событий. Было бы более уместно сказать, что экономия предполагает только минимальное количество изменений, подразумеваемых данными. Как указано выше, для этого не требуется, чтобы произошли единственные изменения; он просто не предполагает изменений, для которых нет свидетельств. Сокращение для описания этого состоит в том, что «экономия сводит к минимуму предполагаемые гомоплазии, она не предполагает, что гомоплазия минимальна».

Бережливость также иногда ассоциируется с представлением о том, что «самое простое возможное объяснение - лучшее», что является обобщением бритвы Оккама . Экономия предпочитает решение, которое требует наименьшего количества необоснованных предположений и необоснованных выводов, решение, которое выходит за рамки данных. Это очень распространенный подход к науке, особенно когда речь идет о системах, которые настолько сложны, что не поддаются простым моделям. Экономия никоим образом не обязательно приводит к «простому» предположению. Действительно, как правило, большинство наборов символьных данных настолько "шумно", что по-настоящему "простое" решение невозможно.

Недавние исследования моделирования показывают, что экономия может быть менее точной, чем деревья, построенные с использованием байесовских подходов к морфологическим данным [20], потенциально из-за чрезмерной точности [21], хотя это оспаривается [22] . Исследования с использованием новых методов моделирования показали, что различия между методами вывода являются результатом используемой стратегии поиска и метода консенсуса, а не используемой оптимизации. [23] Кроме того, анализ 38 молекулярных и 86 морфологических эмпирических наборов данных показал, что общий механизм, предполагаемый эволюционными моделями, используемыми в основанной на моделях филогенетике, применим к большинству молекулярных, но немногим морфологическим наборам данных. [24] Это открытие подтверждает использование основанной на моделях филогенетики для молекулярных данных, но предполагает, что для морфологических данных экономия остается предпочтительной, по крайней мере, до тех пор, пока не станут доступны более сложные модели для фенотипических данных.

Альтернативы [ править ]

Есть несколько других методов вывода филогении на основе дискретных символьных данных, включая максимальное правдоподобие и байесовский вывод . У каждого есть свои потенциальные преимущества и недостатки. На практике эти методы имеют тенденцию отдавать предпочтение деревьям, которые очень похожи на самые экономные деревья для того же набора данных; [25], однако, они позволяют проводить сложное моделирование эволюционных процессов, а поскольку классы методов статистически согласованы и не подвержены притяжению длинных ветвей . Обратите внимание, однако, что эффективность вероятностных и байесовских методов зависит от качества конкретной модели эволюции.занятые; неправильная модель может дать необъективный результат - точно так же, как и экономия. Кроме того, они по-прежнему довольно медленны в вычислительном отношении по сравнению с методами экономии, иногда требуя недель для запуска больших наборов данных. У большинства этих методов есть особенно яростные сторонники и противники; Экономия особенно пропагандировалась как философски превосходящая (особенно яркими кладистами ). [ необходима цитата ]Одна из областей, где экономия все еще имеет большое значение, - это анализ морфологических данных, потому что до недавнего времени стохастические модели изменения характера не были доступны для немолекулярных данных, и они все еще не получили широкого распространения. Также недавно было показано, что экономия с большей вероятностью восстановит истинное дерево перед лицом глубоких изменений в эволюционных («модельных») параметрах (например, скорости эволюционных изменений) внутри дерева. [26]

Матрицы расстояний также могут использоваться для создания филогенетических деревьев. Методы непараметрических расстояний первоначально применялись к фенетическим данным с использованием матрицы попарных расстояний и согласовывались для создания дерева . Матрица расстояния может поступать из ряда различных источников, в том числе иммунологического расстояния , морфометрический анализа и генетических расстояний . Для данных филогенетических символов необработанные значения расстояния могут быть рассчитаны путем простого подсчета количества попарных различий в состояниях персонажей ( Манхэттенское расстояние) или применяя модель эволюции. Примечательно, что дистанционные методы также позволяют использовать данные, которые нелегко преобразовать в символьные данные, такие как анализы гибридизации ДНК-ДНК . Сегодня методы, основанные на расстоянии, часто не одобряются, потому что филогенетически информативные данные могут быть потеряны при преобразовании символов в расстояния. Существует ряд методов матрицы расстояний и критериев оптимальности, из которых критерий минимальной эволюции наиболее тесно связан с максимальной экономией.

Минимальная эволюция [ править ]

Среди дистанционных методов существует критерий филогенетической оценки, известный как минимальная эволюция (ME), который разделяет с максимальной экономностью аспект поиска филогенеза, имеющего самую короткую общую сумму длин ветвей. [27] [28]

Тонкое различие отличает критерий максимальной экономии от критерия ME: в то время как максимальная экономия основана на абдуктивной эвристике, т. Е. На правдоподобности простейшей эволюционной гипотезы таксонов по отношению к более сложным, критерий ME основан на Предположения Кидда и Сгарамелла-Зонты (подтвержденные 22 годами позже Ржецким и Неем [29] ) о том, что если бы эволюционные расстояния от таксонов были объективными оценками истинных эволюционных расстояний, то истинная филогения таксонов имела бы длину короче, чем любые другие. альтернативная филогения, совместимая с этими расстояниями. Результаты Ржецкого и Нея освобождают критерий МЭ от принципа бритвы Оккама и дают ему прочную теоретическую и количественную основу. [30]

См. Также [ править ]

  • Информационный сайт
  • бритва Оккама

Ссылки [ править ]

  1. ^ Фэррис JS (март 1970). «Методы вычисления деревьев Вагнера». Систематическая биология . 19 (1): 83–92. DOI : 10.1093 / sysbio / 19.1.83 . JSTOR  2412028 .
  2. ^ Fitch WM (1971). «На пути к определению хода эволюции: минимальное изменение для указанной топологии дерева». Систематическая зоология . 20 (4): 406–416. DOI : 10.2307 / 2412116 . JSTOR 2412116 . 
  3. ^ а б Фельзенштейн J (1978). «Случаи, в которых методы экономии и совместимости заведомо вводят в заблуждение». Систематическая зоология . 27 (4): 401–410. DOI : 10.1093 / sysbio / 27.4.401 .
  4. ^ Брауэр А.В. (октябрь 2018 г.). «Статистическая согласованность и филогенетический вывод: краткий обзор» . Кладистика . 34 (5): 562–7. DOI : 10.1111 / cla.12216 .
  5. ^ Фэррис JS (1983). «Логическая основа филогенетического анализа». В Платник Н.И., Функ В.А. (ред.). Успехи в кладистике . 2 . Нью-Йорк, Нью-Йорк: издательство Колумбийского университета. С. 7–36.
  6. ^ Фэррис JS (октябрь 2008). «Экономия и объяснительная сила». Кладистика . 24 (5): 825–47. DOI : 10.1111 / j.1096-0031.2008.00214.x . S2CID 32931349 . 
  7. ^ Де Лает J (2005). «Экономия и проблема неприменимости данных в последовательности». В Альберте В.А. (ред.). Экономия, филогения и геномика . Издательство Оксфордского университета. стр.  81 -116. ISBN 978-0-19-856493-5.
  8. ^ Де Лает J (2014). «Экономичный анализ данных невыровненных последовательностей: максимизация гомологии и минимизация гомоплазии, а не минимизация операционных затрат или минимизация одинаково взвешенных преобразований» . Кладистика . 31 (5): 550–567. DOI : 10.1111 / cla.12098 .
  9. ^ Голобов, Пабло; Де Лаэт, Ян; Риос-Тамайо, Дуньески; Шумик, Клаудиа (2021). «Пересмотр неприменимых символов и приближение с пошаговым матричным перекодированием». Кладистика . DOI : 10.1111 / cla.12456 .
  10. ^ Джейнс ET (2003). Bretthorst GL (ред.). Теория вероятностей: логика науки . Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 978-0-521-59271-0.
  11. Перейти ↑ Sober E (1983). «Экономия в систематике: вопросы философии». Ежегодный обзор экологии и систематики . 14 : 335–357. DOI : 10.1146 / annurev.es.14.110183.002003 .
  12. ^ Wiens, Джон Дж (2001). «Анализ характера в морфологической филогенетике: проблемы и решения» . Систематическая биология . 50 (5): 689–699. DOI : 10.1080 / 106351501753328811 . ISSN 1076-836X . PMID 12116939 .  
  13. ^ Гранд, Анаис; Корвес, Адель; Дуке Велес, Лина Мария; Лорен, Мишель (2001). «Филогенетический вывод с использованием дискретных символов: выполнение упорядоченной и неупорядоченной экономичности и трехпозиционных утверждений» . Биологический журнал Линнеевского общества . 110 (4): 914–930. DOI : 10.1111 / bij.12159 . ISSN 0024-4066 . 
  14. ^ Рино, Валентин; Гранд, Анаис; Зарагуэта, Рене; Лорен, Мишель (2015). «Экспериментальная систематика: чувствительность кладистических методов к схемам поляризации и упорядочения символов» . Вклад в зоологию . 84 (2): 129–148. DOI : 10.1163 / 18759866-08402003 . ISSN 1875-9866 . 
  15. ^ Рино, Валентин; Зарагуэта, Рене; Лорен, Мишель (2018). «Влияние ошибок на кладистический вывод: сравнение на основе моделирования между экономией и анализом трех таксонов» . Вклад в зоологию . 87 (1): 25–40. DOI : 10.1163 / 18759866-08701003 . ISSN 1875-9866 . 
  16. Перейти ↑ Bremer K (июль 1988 г.). «Пределы данных аминокислотной последовательности в филогенетической реконструкции покрытосеменных». Эволюция; Международный журнал органической эволюции . 42 (4): 795–803. DOI : 10.1111 / j.1558-5646.1988.tb02497.x . PMID 28563878 . S2CID 13647124 .  
  17. ^ Bremer КР (сентябрь 1994). «Опора ветки и устойчивость дерева». Кладистика . 10 (3): 295–304. DOI : 10.1111 / j.1096-0031.1994.tb00179.x . S2CID 84987781 . 
  18. Перейти ↑ Brower AV, Garzón-Orduña IJ (апрель 2018 г.). «Отсутствующие данные, поддержка клады и« ретикуляция »: молекулярная систематика Heliconius и родственных родов (Lepidoptera: Nymphalidae) пересмотрена» . Кладистика . 34 (2): 151–66. DOI : 10.1111 / cla.12198 .
  19. ^ День WH (1987). «Вычислительная сложность вывода филогении из матриц несходства». Вестник математической биологии . 49 (4): 461–7. DOI : 10.1016 / S0092-8240 (87) 80007-1 . PMID 3664032 . 
  20. ^ Puttick, Марк N .; О'Рейли, Джозеф Э .; Tanner, Alastair R .; Флеминг, Джеймс Ф .; Кларк, Джеймс; Холлоуэй, Люси; Лозано-Фернандес, Хесус; Парри, Люк А .; Тарвер, Джеймс Э .; Пизани, Давиде; Донохью, Филип CJ (2017). «Неопределенное дерево: различение конкурирующих подходов к филогенетическому анализу фенотипических данных» . Труды Королевского общества B: биологические науки . 284 (1846): 20162290. DOI : 10.1098 / rspb.2016.2290 . ISSN 0962-8452 . PMC 5247500 . PMID 28077778 .   
  21. ^ О'Рейли, Джозеф Э .; Puttick, Mark N .; Парри, Люк; Tanner, Alastair R .; Тарвер, Джеймс Э .; Флеминг, Джеймс; Пизани, Давиде; Донохью, Филип CJ (2016). «Байесовские методы превосходят экономию, но за счет точности оценки филогении по дискретным морфологическим данным» . Письма о биологии . 12 (4): 20160081. DOI : 10.1098 / rsbl.2016.0081 . ISSN 1744-9561 . PMC 4881353 . PMID 27095266 .   
  22. ^ Голобофф, Пабло А .; Торрес, Амбросио; Ариас, Дж. Сальвадор (2018). «Взвешенная экономия превосходит другие методы филогенетического вывода в моделях, подходящих для морфологии» . Кладистика . 34 (4): 407–437. DOI : 10.1111 / cla.12205 . ISSN 0748-3007 . 
  23. ^ Гарвуд, Рассел Дж; Найт, Кристофер Джи; Саттон, Марк Д; Сансом, Роберт С; Китинг, Джозеф Н. (2020). "Морфологическая филогенетика, оцененная с помощью новых эволюционных симуляций" . Систематическая биология . 69 (5): 897–912. DOI : 10.1093 / sysbio / syaa012 . ISSN 1063-5157 . PMC 7440746 . PMID 32073641 .   
  24. ^ Голобофф, Пабло А .; Питтман, Майкл; Пол, Диего; Сюй, Син (2019). «Наборы морфологических данных гораздо хуже соответствуют общему механизму, чем последовательности ДНК, и ставят под сомнение модель Mkv». Систематическая биология . 68 (3): 494–504. DOI : 10.1093 / sysbio / syy077 . ISSN 1076-836X . PMID 30445627 . S2CID 53567539 .   
  25. ^ Rindal E, Брауэр А.В. (2011). «Действительно ли филогенетический анализ на основе моделей превосходит экономию? Тест с эмпирическими данными». Кладистика . 27 : 331–4. DOI : 10.1111 / j.1096-0031.2010.00342.x . S2CID 84907350 . 
  26. ^ Kolaczkowski B, Thornton JW (октябрь 2004). «Выполнение филогенетики максимальной экономичности и правдоподобия, когда эволюция неоднородна». Природа . 431 (7011): 980–4. Bibcode : 2004Natur.431..980K . DOI : 10,1038 / природа02917 . PMID 15496922 . S2CID 4385277 .  
  27. ^ Катандзаро, Даниэле (2010). Оценка филогении по молекулярным данным, в Математические подходы к анализу последовательности полимеров и смежные проблемы . Спрингер, Нью-Йорк.
  28. Перейти ↑ Catanzaro D (2009). «Задача минимальной эволюции: обзор и классификация». Сети . 53 (2): 112–125. DOI : 10.1002 / net.20280 .
  29. ^ Rzhetsky А, М Nei (1993). «Теоретические основы минимального эволюционного метода филогенетического вывода». Молекулярная биология и эволюция . 10 : 21073–1095.
  30. ^ Desper R, Gascuel O (март 2004). «Теоретические основы сбалансированного минимального эволюционного метода филогенетического вывода и его связь с взвешенным методом наименьших квадратов подгонки дерева» . Молекулярная биология и эволюция . 21 (3): 587–98. DOI : 10.1093 / molbev / msh049 . PMID 14694080 .