Из Википедии, свободной энциклопедии
  (Перенаправлено из Computational phylogenetic )
Перейти к навигации Перейти к поиску

Вычислительная филогенетика - это применение вычислительных алгоритмов , методов и программ для филогенетического анализа. Цель состоит в том, чтобы собрать филогенетическое дерево, представляющее гипотезу об эволюционном происхождении набора генов , видов или других таксонов . Например, эти методы использовались для изучения генеалогического древа видов гоминид [1] и взаимоотношений между конкретными генами, общими для многих типов организмов. [2]

Традиционная филогенетика полагается на морфологические данные, полученные путем измерения и количественной оценки фенотипических свойств репрезентативных организмов, в то время как более современная область молекулярной филогенетики использует нуклеотидные последовательности, кодирующие гены, или аминокислотные последовательности, кодирующие белки, в качестве основы для классификации.

Многие формы молекулярной филогенетики тесно связаны с выравниванием последовательностей и широко используют их при построении и уточнении филогенетических деревьев, которые используются для классификации эволюционных отношений между гомологичными генами, представленными в геномах дивергентных видов. Филогенетические деревья, построенные вычислительными методами, вряд ли будут идеально воспроизводить эволюционное дерево, которое представляет исторические отношения между анализируемыми видами. Историческое дерево видов может также отличаться от исторического дерева отдельного гомологичного гена, общего для этих видов.

Типы филогенетических деревьев и сетей [ править ]

Филогенетические деревья, созданные с помощью вычислительной филогенетики, могут быть как корневыми, так и некорневыми, в зависимости от входных данных и используемого алгоритма. Корневое дерево - это ориентированный граф, который явно идентифицирует самого последнего общего предка (MRCA), обычно это вмененная последовательность, которая не представлена ​​во входных данных. Меры генетического расстояния могут использоваться для построения дерева с входными последовательностями в качестве конечных узлов и их расстояниями от корня, пропорциональными их генетическому расстоянию от предполагаемого MRCA. Идентификация корня обычно требует включения во входные данные по крайней мере одной «внешней группы», о которой известно, что она лишь отдаленно связана с интересующими последовательностями.

В отличие от этого, деревья без корней рисуют расстояния и отношения между входными последовательностями, не делая предположений относительно их происхождения. Некорневое дерево всегда может быть получено из корневого дерева, но корень обычно не может быть помещен на некорневое дерево без дополнительных данных о скоростях расхождения, таких как предположение гипотезы молекулярных часов . [3]

Набор всех возможных филогенетических деревьев для данной группы входных последовательностей может быть концептуализирован как дискретно определенное многомерное «древовидное пространство», через которое можно проследить пути поиска с помощью алгоритмов оптимизации . Хотя подсчет общего количества деревьев для нетривиального количества входных последовательностей может быть затруднен из-за вариаций в определении топологии дерева, всегда верно, что корневых деревьев больше, чем некорневых деревьев для данного количества входов и выбора параметров. [4]

Как корневые, так и некорневые филогенетические деревья могут быть далее обобщены на корневые или некорневые филогенетические сети , которые позволяют моделировать эволюционные явления, такие как гибридизация или горизонтальный перенос генов .

Кодирование символов и определение гомологии [ править ]

Морфологический анализ [ править ]

Основная проблема морфологической филогенетики - сборка матрицы.представляет собой сопоставление каждого из сравниваемых таксонов с репрезентативными измерениями для каждой из фенотипических характеристик, используемых в качестве классификатора. Типы фенотипических данных, используемых для построения этой матрицы, зависят от сравниваемых таксонов; для отдельных видов они могут включать измерения среднего размера тела, длины или размера определенных костей или других физических характеристик или даже поведенческих проявлений. Конечно, поскольку не все возможные фенотипические характеристики могут быть измерены и закодированы для анализа, выбор характеристик для измерения является главным препятствием для этого метода. Решение о том, какие признаки использовать в качестве основы для матрицы, обязательно представляет собой гипотезу о том, какие признаки вида или более высокого таксона являются эволюционно значимыми. [5]Морфологические исследования могут быть сбиты с толку примерами конвергентной эволюции фенотипов. [6] Основной проблемой при построении полезных классов является высокая вероятность совпадения таксонов в распределении вариаций фенотипа. Включение вымерших таксонов в морфологический анализ часто затруднено из-за отсутствия или неполной регистрации окаменелостей , но было показано, что они оказывают значительное влияние на полученные деревья; в одном исследовании только включение вымерших видов обезьян дало морфологически полученное дерево, которое соответствовало дереву, полученному на основе молекулярных данных. [1]

Некоторые фенотипические классификации, особенно те, которые используются при анализе очень разных групп таксонов, дискретны и однозначны; Например, классификация организмов как имеющих или не имеющих хвоста в большинстве случаев проста, как и подсчет таких признаков, как глаза или позвонки. Однако наиболее подходящее представление непрерывно меняющихся фенотипических измерений - спорная проблема, не имеющая общего решения. Распространенный метод состоит в том, чтобы просто отсортировать интересующие измерения по двум или более классам, делая непрерывные наблюдаемые вариации дискретно классифицируемыми (например, все примеры с плечевой костью длиннее заданного отрезка оцениваются как члены одного состояния, а все члены, чья плечевая кость кости короче, чем отрезок, оцениваются как члены второго состояния). Это приводит к тому, что легко манипулироватьнабор данных, но подвергался критике за плохой отчет об основе для определений классов и за принесение в жертву информации по сравнению с методами, которые используют непрерывное взвешенное распределение измерений. [7]

Поскольку сбор морфологических данных чрезвычайно трудоемок, будь то из литературных источников или из полевых наблюдений, повторное использование ранее скомпилированных матриц данных не является редкостью, хотя это может распространить недостатки исходной матрицы на множественные производные анализы. [8]

Молекулярный анализ [ править ]

Проблема кодирования символов сильно отличается в молекулярном анализе, поскольку символы в данных биологической последовательности определяются непосредственно и дискретно - отдельные нуклеотиды в последовательностях ДНК или РНК и отдельные аминокислоты в последовательностях белков . Однако определение гомологии может быть сложной задачей из-за трудностей, присущих множественному выравниванию последовательностей . Для данного MSA с разрывом можно построить несколько корневых филогенетических деревьев, которые различаются по интерпретации того, какие изменения являются « мутациями » по сравнению с наследственными признаками, а какие события являются инсерционными мутациями или делеционными мутациями.. Например, учитывая только попарное выравнивание с областью гэпа, невозможно определить, несет ли одна последовательность инсерционная мутация или другая - делеция. Проблема усугубляется в MSA с невыровненными и неперекрывающимися промежутками. На практике значительные области рассчитанного выравнивания могут быть исключены при построении филогенетического дерева, чтобы избежать интеграции зашумленных данных в расчет дерева.

Методы матрицы расстояний [ править ]

Матричные методы филогенетического анализа явно полагаются на меру «генетического расстояния» между классифицируемыми последовательностями, и, следовательно, они требуют MSA в качестве входных данных. Расстояние часто определяется как доля несовпадений в выровненных позициях, при этом промежутки либо игнорируются, либо считаются несовпадениями. [3] Методы расстояния пытаются построить комплексную матрицу из набора запросов последовательности, описывающего расстояние между каждой парой последовательностей. Из этого строится филогенетическое дерево, которое помещает близкородственные последовательности в один и тот же внутренний узел.и чьи длины ветвей близко воспроизводят наблюдаемые расстояния между последовательностями. Методы матрицы расстояний могут создавать как корневые, так и некорневые деревья, в зависимости от алгоритма, используемого для их вычисления. Они часто используются в качестве основы для прогрессивных и итерационных типов множественных выравниваний последовательностей . Основным недостатком методов матрицы расстояний является их неспособность эффективно использовать информацию о локальных областях с высокой вариабельностью, которые появляются в нескольких поддеревьях. [4]

UPGMA и WPGMA [ править ]

UPGMA ( Невзвешенный пар Методы группы с среднеарифметическим значением ) и WPGMA ( Weighted пара Метод группы с арифметическими средним ) методами дают корневые дерева и требуют постоянной скорость предположения - то есть, это предполагает ультраметрическое дерево , в котором расстояние от корня до все кончики веток равны. [9]

Присоединение к соседу [ править ]

Методы объединения соседей применяют общие методы кластерного анализа к анализу последовательности с использованием генетического расстояния в качестве метрики кластеризации. Простой метод соединения соседей дает деревья без корней, но он не предполагает постоянной скорости эволюции (то есть молекулярных часов ) по линиям. [10]

Метод Фитча – Марголиаша [ править ]

В методе Фитча – Марголиаша используется метод взвешенных наименьших квадратов для кластеризации на основе генетической дистанции. [11] Тесно связанным последовательностям придается больший вес в процессе построения дерева, чтобы исправить повышенную неточность измерения расстояний между удаленно связанными последовательностями. Расстояния, используемые в качестве входных данных для алгоритма, должны быть нормализованы, чтобы предотвратить большие артефакты при вычислении отношений между тесно связанными и отдаленно связанными группами. Расстояния, рассчитанные этим методом, должны быть линейными ; критерий линейности для расстояний требует, чтобы ожидаемые значениядлины ветвей для двух отдельных ветвей должны равняться ожидаемому значению суммы двух расстояний ветвей - свойство, которое применяется к биологическим последовательностям, только если они были скорректированы с учетом возможности обратных мутаций в отдельных сайтах. Эта коррекция осуществляется с помощью матрицы замещения, например, полученной из модели эволюции ДНК Джукса-Кантора . Поправка на расстояние необходима только на практике, когда скорость эволюции различается между ветвями. [4] Другая модификация алгоритма может быть полезной, особенно в случае концентрированных расстояний (пожалуйста, сообщите о феномене концентрации меры и проклятии размерности): было показано, что эта модификация, описанная в [12] , улучшает эффективность алгоритма и его надежность.

Критерий наименьших квадратов, применяемый к этим расстояниям, более точен, но менее эффективен, чем методы объединения соседей. Дополнительное улучшение, которое корректирует корреляции между расстояниями, которые возникают из многих тесно связанных последовательностей в наборе данных, также может применяться с увеличенными вычислительными затратами. Нахождение оптимального дерева наименьших квадратов с любым поправочным коэффициентом является NP-полным , [13] поэтому эвристические методы поиска, подобные тем, которые используются в анализе максимальной экономии, применяются к поиску в пространстве дерева.

Использование внешних групп [ править ]

Независимая информация о взаимосвязи между последовательностями или группами может использоваться для уменьшения пространства поиска в дереве и корневых некорневых деревьев. Стандартное использование методов матрицы расстояний включает включение по крайней мере одной внешней групповой последовательности, о которой известно, что она только отдаленно связана с интересующими последовательностями в наборе запроса. [3] Это использование можно рассматривать как тип экспериментального контроля . Если внешняя группа была выбрана надлежащим образом, она будет иметь гораздо большую генетическую дистанцию.и, следовательно, более длинная ветвь, чем у любой другой последовательности, и она будет появляться рядом с корнем корневого дерева. Выбор подходящей внешней группы требует выбора последовательности, которая умеренно связана с интересующими последовательностями; слишком близкие отношения сводят на нет цель чужой группы, а слишком отдаленные добавляют шум в анализ. [3] Также следует проявлять осторожность, чтобы избежать ситуаций, в которых виды, от которых были взяты последовательности, имеют отдаленное родство, но ген, кодируемый последовательностями, является высококонсервативным в разных линиях. Горизонтальный перенос генов , особенно между разными бактериями , также может затруднить использование чужих групп.

Максимальная экономия [ править ]

Максимальная экономия (MP) - это метод определения потенциального филогенетического дерева, который требует наименьшего общего числа эволюционных событий для объяснения наблюдаемых данных последовательности. Некоторые способы оценки деревьев также включают «стоимость», связанную с определенными типами эволюционных событий, и попытку найти дерево с наименьшей общей стоимостью. Это полезный подход в случаях, когда не все возможные типы событий одинаково вероятны - например, когда известно, что определенные нуклеотиды или аминокислоты более изменчивы, чем другие.

Самый наивный способ определить самое экономное дерево - это простое перечисление - рассмотрение каждого возможного дерева по очереди и поиск дерева с наименьшим количеством баллов. Однако это возможно только для относительно небольшого числа последовательностей или видов, потому что проблема определения наиболее экономичного дерева, как известно, является NP-сложной ; [4] поэтому был разработан ряд эвристических методов поиска для оптимизации , позволяющих найти очень экономное дерево, если не лучшее в наборе. Большинство таких методов включают в себя механизм минимизации в стиле наискорейшего спуска , работающий по критерию перегруппировки дерева .

Ветвь и переплет [ править ]

Ветвей и границ алгоритм представляет собой общий метод , используемый для повышения эффективности запросов почти оптимальных решений NP-трудной проблемы применительно к первому филогенетики в начале 1980 - х годов. [14] Ветвь и граница особенно хорошо подходят для построения филогенетического дерева, потому что по своей сути требует разделения проблемы на древовидную структуру.поскольку он подразделяет проблемное пространство на более мелкие области. Как следует из названия, он требует в качестве входных данных как правило ветвления (в случае филогенетики, добавление следующего вида или последовательности к дереву), так и границу (правило, исключающее из рассмотрения определенные области пространства поиска, тем самым предполагая, что оптимальное решение не может занимать эту область). Определение хорошей границы - самый сложный аспект применения алгоритма в филогенетике. Простой способ определения границы - это максимальное количество предполагаемых эволюционных изменений, разрешенных для каждого дерева. Набор критериев, известный как правила Жарких [15]жестко ограничить пространство поиска путем определения характеристик, общих для всех кандидатов «самых экономных» деревьев. Два самых основных правила требуют исключения всех повторяющихся последовательностей, кроме одной (для случаев, когда несколько наблюдений дали идентичные данные) и исключения участков символов, в которых два или более состояний не встречаются по крайней мере у двух видов. В идеальных условиях эти правила и связанный с ними алгоритм полностью определяли бы дерево.

Алгоритм Санкоффа-Мореля-Седергрена [ править ]

Алгоритм Санкофф-Мореля-Седергрена был одним из первых опубликованных методов для одновременного создания MSA и филогенетического дерева для нуклеотидных последовательностей. [16] Метод использует расчет максимальной экономии в сочетании с функцией подсчета очков, которая штрафует пропуски и несоответствия, тем самым отдавая предпочтение дереву, которое вводит минимальное количество таких событий (альтернативная точка зрения утверждает, что предпочтение следует отдавать деревьям, которые максимизируют степень сходства последовательностей, которая может быть интерпретирована как гомология, точка зрения, которая может привести к различным оптимальным деревьям [17] ). Вмененные последовательности во внутренних узлахдерева оцениваются и суммируются по всем узлам в каждом возможном дереве. Сумма дерева с наименьшей оценкой дает как оптимальное дерево, так и оптимальный MSA с учетом функции оценки. Поскольку этот метод требует значительных вычислительных ресурсов, приближенный метод, в котором первоначальные предположения для внутренних выравниваний уточняются по одному узлу за раз. И полная, и приблизительная версия на практике рассчитываются методом динамического программирования. [4]

MALIGN и POY [ править ]

Более поздние методы филогенетического дерева / MSA используют эвристику для выделения деревьев с высокими показателями, но не обязательно оптимальных. Метод MALIGN использует метод максимальной экономии для вычисления множественного выравнивания путем максимизации оценки кладограммы , а его сопутствующий метод POY использует итерационный метод, сочетающий оптимизацию филогенетического дерева с улучшениями в соответствующем MSA. [18] Однако использование этих методов при построении эволюционных гипотез было подвергнуто критике как предвзятое из-за преднамеренного построения деревьев, отражающих минимальные эволюционные события. [19]Этому, в свою очередь, противоречит точка зрения, согласно которой такие методы следует рассматривать как эвристические подходы к поиску деревьев, которые максимизируют степень сходства последовательностей, которую можно интерпретировать как гомологию. [17] [20]

Максимальная вероятность [ править ]

Метод максимального правдоподобия использует стандартные статистические методы для вывода распределений вероятностей, чтобы назначить вероятности конкретным возможным филогенетическим деревьям. Метод требует модели замещения для оценки вероятности конкретных мутаций ; грубо говоря, дерево, которое требует большего количества мутаций во внутренних узлах для объяснения наблюдаемой филогении, будет оцениваться как имеющее более низкую вероятность. Это в целом аналогично методу максимальной экономии, но максимальная вероятность дает дополнительную статистическую гибкость, позволяя варьировать скорость эволюции как по линиям, так и по участкам. Фактически, метод требует, чтобы эволюция в разных местах и ​​по разным линиям происходила.статистически независимый . Таким образом, максимальное правдоподобие хорошо подходит для анализа отдаленно связанных последовательностей, но считается, что его трудно вычислить в вычислительном отношении из-за его NP-сложности. [21]

Алгоритм «отсечения», вариант динамического программирования , часто используется для сокращения пространства поиска за счет эффективного вычисления вероятности поддеревьев. [4] Метод вычисляет вероятность для каждого сайта «линейным» способом, начиная с узла, единственными потомками которого являются листья (то есть кончиками дерева), и работая в обратном направлении к «нижнему» узлу во вложенных наборах. Однако деревья, полученные с помощью этого метода, укореняются только в том случае, если модель замещения необратима, что, как правило, неверно для биологических систем. Поиск дерева максимального правдоподобия также включает в себя компонент оптимизации длины ветвления, который сложно улучшить алгоритмически;общие инструменты глобальной оптимизации , такие как метод Ньютона – Рафсона часто используются.

Некоторые инструменты, которые используют максимальную вероятность для вывода филогенетических деревьев из данных о частотах вариантов аллелей (VAF), включают AncesTree и CITUP. [22] [23]

Байесовский вывод [ править ]

Байесовский вывод можно использовать для создания филогенетических деревьев способом, тесно связанным с методами максимального правдоподобия. Байесовские методы предполагают априорное распределение вероятностей возможных деревьев, которое может быть просто вероятностью любого одного дерева среди всех возможных деревьев, которые могут быть сгенерированы из данных, или может быть более сложной оценкой, полученной из предположения, что события расхождения, такие как как видообразование происходят как случайные процессы . Выбор априорного распределения является предметом разногласий среди пользователей методов филогенетики байесовского вывода. [4]

Реализации байесовских методов обычно используют алгоритмы выборки Монте-Карло цепи Маркова , хотя выбор набора перемещений варьируется; выборки, используемые в байесовской филогенетике, включают циклическую перестановку листовых узлов предлагаемого дерева на каждом шаге [24] и замену дочерних поддеревьев случайного внутреннего узла между двумя связанными деревьями. [25] Использование байесовских методов в филогенетике вызывает споры, в основном из-за неполной спецификации выбора набора движений, критерия приемлемости и предшествующего распространения в опубликованных работах. [4] Байесовские методы обычно превосходят методы, основанные на экономии; они могут быть более склонны к привлечению длинных ветвей, чем методы максимального правдоподобия,[26], хотя они лучше справляются с отсутствием данных. [27]

В то время как методы правдоподобия находят дерево, которое максимизирует вероятность данных, байесовский подход восстанавливает дерево, которое представляет наиболее вероятные клады, используя апостериорное распределение. Однако оценки апостериорной вероятности клад (измерение их «поддержки») могут быть довольно далекими от истины, особенно для клад, которые маловероятны. Таким образом, для оценки апостериорной вероятности были предложены другие методы. [28]

Некоторые инструменты, которые используют байесовский вывод для вывода филогенетических деревьев из данных о частотах вариантов аллелей (VAF), включают Canopy, EXACT и PhyloWGS. [29] [30] [31]

Выбор модели [ править ]

Методы молекулярной филогенетики основаны на определенной модели замены, которая кодирует гипотезу об относительных скоростях мутаций в различных участках исследуемой последовательности гена или аминокислот. В простейшем случае модели замещения направлены на корректировку различий в скоростях переходов и трансверсий в нуклеотидных последовательностях. Использование моделей замещения обусловлено тем фактом, что генетическое расстояние между двумя последовательностями увеличивается линейно только в течение короткого времени после того, как две последовательности расходятся друг от друга (в качестве альтернативы, расстояние линейно только незадолго до слияния.). Чем больше времени проходит после расхождения, тем более вероятно, что две мутации происходят в одном и том же нуклеотидном сайте. Таким образом, простые вычисления генетического расстояния будут недооценивать количество событий мутаций, произошедших в эволюционной истории. Степень этого недоучета увеличивается с увеличением времени, прошедшего с момента расхождения, что может привести к феномену притяжения длинных ветвей или ошибочному отнесению двух отдаленно связанных, но конвергентно развивающихся последовательностей как тесно связанных. [32] Метод максимальной экономии особенно подвержен этой проблеме из-за его явного поиска дерева, представляющего минимальное количество различных эволюционных событий. [4]

Типы моделей [ править ]

Все модели замещения присваивают набор весов каждому возможному изменению состояния, представленному в последовательности. Наиболее распространенные типы моделей неявно обратимы, потому что они приписывают такой же вес, например, нуклеотидной мутации G> C, что и мутации C> G. Простейшая возможная модель, модель Джукса-Кантора , приписывает равную вероятность каждому возможному изменению состояния для данного нуклеотидного основания. Скорость изменения между любыми двумя отдельными нуклеотидами будет составлять одну треть от общей скорости замены. [4] Более продвинутые модели различают переходы и трансверсии.. Наиболее общая возможная модель с обратимой во времени, называемая моделью GTR, имеет шесть параметров скорости мутаций. Еще более обобщенная модель, известная как общая 12-параметрическая модель, нарушает обратимость во времени за счет гораздо дополнительной сложности в вычислении генетических расстояний, согласованных между несколькими линиями. [4] Один из возможных вариантов этой темы регулирует скорость так, что общее содержание GC - важная мера стабильности двойной спирали ДНК - меняется со временем. [33]

Модели также могут допускать изменение ставок в зависимости от позиций во входной последовательности. Наиболее очевидный пример такой вариации следует из расположения нуклеотидов в генах, кодирующих белок, в кодоны с тремя основаниями . Если местоположение открытой рамки считывания (ORF) известно, скорость мутаций может быть скорректирована для положения данного сайта в кодоне, поскольку известно, что спаривание оснований колебания может обеспечить более высокую скорость мутаций в третьем нуклеотиде данный кодон, не влияя на значение кодона в генетическом коде . [32] Менее основанный на гипотезах пример, который не полагается на идентификацию ORF, просто присваивает каждому сайту скорость, случайно выбранную из предопределенного распределения, частогамма-распределение или логнормальное распределение . [4] Наконец, более консервативная оценка вариаций скорости, известная как метод ковариона, допускает автокоррелированные вариации скорости, так что скорость мутации данного сайта коррелирует между сайтами и клонами. [34]

Выбор лучшей модели [ править ]

Выбор подходящей модели имеет решающее значение для проведения качественного филогенетического анализа, поскольку модели с недостаточной параметризацией или чрезмерно ограничительные могут приводить к отклонениям в поведении при нарушении лежащих в их основе допущений, а также потому, что чрезмерно сложные или чрезмерно параметризованные модели требуют больших вычислительных затрат, а параметры могут быть избыточными . [32] Наиболее распространенным методом выбора модели является тест отношения правдоподобия (LRT), который дает оценку правдоподобия, которую можно интерпретировать как меру « согласия » между моделью и входными данными. [32]Однако следует проявлять осторожность при использовании этих результатов, поскольку более сложная модель с большим количеством параметров всегда будет иметь более высокую вероятность, чем упрощенная версия той же модели, что может привести к наивному выбору слишком сложных моделей. [4] По этой причине компьютерные программы выбора модели будут выбирать простейшую модель, которая не намного хуже, чем более сложные модели замещения. Существенным недостатком LRT является необходимость проведения серии парных сравнений между моделями; было показано, что порядок, в котором сравниваются модели, имеет большое влияние на ту, которая в конечном итоге будет выбрана. [35]

Альтернативным методом выбора модели является информационный критерий Акаике (AIC), формально оценка расхождения Кульбака – Лейблера между истинной моделью и тестируемой моделью. Его можно интерпретировать как оценку правдоподобия с поправочным коэффициентом для наказания чрезмерно параметризованных моделей. [32] AIC рассчитывается для отдельной модели, а не для пары, поэтому он не зависит от порядка, в котором оцениваются модели. Родственная альтернатива, байесовский информационный критерий (BIC), имеет аналогичную базовую интерпретацию, но более серьезно наказывает сложные модели. [32]

Подробный пошаговый протокол построения филогенетического дерева, включая сборку смежных последовательностей ДНК / аминокислот, множественное выравнивание последовательностей, модельный тест (тестирование наиболее подходящих моделей замены) и реконструкцию филогенеза с использованием максимального правдоподобия и байесовского вывода, доступен по адресу Протокол природы [36]

Нетрадиционный способ оценки филогенетического дерева - это сравнение его с результатом кластеризации. Можно использовать технику многомерного масштабирования, так называемое интерполяционное соединение, чтобы уменьшить размерность для визуализации результата кластеризации последовательностей в 3D, а затем сопоставить филогенетическое дерево с результатом кластеризации. Лучшее дерево обычно имеет более высокую корреляцию с результатом кластеризации. [37]

Оценка поддержки дерева [ править ]

Как и при любом статистическом анализе, оценка филогении по данным характера требует оценки достоверности. Существует ряд методов, позволяющих проверить степень поддержки филогенетического дерева, либо путем оценки поддержки каждого поддерева в филогении (узловая поддержка), либо путем оценки того, существенно ли филогения отличается от других возможных деревьев (тесты гипотез альтернативного дерева). ).

Узловая опора [ править ]

Наиболее распространенный метод оценки поддержки дерева - это оценка статистической поддержки каждого узла дерева. Обычно узел с очень низкой поддержкой не считается допустимым в дальнейшем анализе и визуально может быть свернут в политомию, чтобы указать, что отношения внутри клады не разрешены.

Дерево консенсуса [ править ]

Многие методы оценки узловой поддержки включают рассмотрение множественных филогений. Дерево консенсуса суммирует узлы, которые совместно используются набором деревьев. [38] В * строгом консенсусе * показаны только узлы, найденные в каждом дереве, а остальные свернуты в неразрешенную политомию . Менее консервативные методы, такие как * дерево консенсуса по правилам большинства *, рассматривают узлы, которые поддерживаются заданным процентом рассматриваемых деревьев (например, не менее 50%).

Например, при анализе максимальной экономии может быть много деревьев с одинаковым показателем экономии. Дерево строгого консенсуса покажет, какие узлы находятся во всех одинаково экономных деревьях, а какие узлы отличаются. Деревья консенсуса также используются для оценки поддержки филогении, реконструированной с помощью байесовского вывода (см. Ниже).

Начальная загрузка и складывание [ править ]

В статистике бутстрап - это метод определения изменчивости данных, распределение которых неизвестно, с использованием псевдорепликаций исходных данных. Например, для набора из 100 точек данных псевдорепликация - это набор данных того же размера (100 точек), случайно выбранный из исходных данных с заменой. То есть каждая исходная точка данных может быть представлена ​​более одного раза в псевдорепликации или не может быть представлена ​​вообще. Статистическая поддержка включает оценку того, имеют ли исходные данные свойства, аналогичные свойствам большого набора псевдорепликатов.

В филогенетике бутстреппинг проводится с использованием столбцов матрицы символов. Каждая псевдорепликация содержит одинаковое количество видов (строк) и символов (столбцов), случайно выбранных из исходной матрицы с заменой. Филогения реконструируется из каждого псевдорепликата с помощью тех же методов, которые используются для реконструкции филогении из исходных данных. Для каждого узла в филогенезе узловая поддержка - это процент псевдорепликатов, содержащих этот узел. [39]

Статистическая строгость бутстрап-теста была эмпирически оценена с использованием вирусных популяций с известной историей эволюции [40], и было обнаружено, что 70% -ная поддержка бутстрап-теста соответствует 95% -ной вероятности существования клады. Однако это было проверено в идеальных условиях (например, отсутствие изменений в темпах эволюции, симметричная филогения). На практике значения выше 70% обычно поддерживаются и оставляются на усмотрение исследователя или читателя для оценки уверенности. Узлы с поддержкой ниже 70% обычно считаются неразрешенными.

В филогенетике процедура складывания складных ножей аналогична, за исключением того, что столбцы матрицы отбираются без замены. Псевдорепликаты генерируются путем случайной подвыборки данных - например, «складной нож 10%» будет включать случайную выборку 10% матрицы много раз для оценки узловой поддержки.

Апостериорная вероятность [ править ]

Реконструкция филогении с использованием байесовского вывода генерирует апостериорное распределение весьма вероятных деревьев с учетом данных и эволюционной модели, а не единственное «лучшее» дерево. Деревья в апостериорном распределении обычно имеют много разных топологий. Когда входными данными являются данные вариантной частоты аллелей (VAF), инструмент EXACT может точно вычислить вероятности деревьев для небольших, биологически значимых размеров деревьев, путем исчерпывающего поиска по всему пространству дерева. [29]

Большинство методов байесовского вывода используют итерацию Монте-Карло цепи Маркова, и начальные шаги этой цепочки не считаются надежными реконструкциями филогении. Деревья, сгенерированные в начале цепочки, обычно отбрасываются как выгорающие . Самый распространенный метод оценки узловой поддержки в байесовском филогенетическом анализе - это вычисление процента деревьев в апостериорном распределении (после выгорания), которые содержат узел.

Ожидается, что статистическая поддержка узла в байесовском выводе будет отражать вероятность того, что клада действительно существует с учетом данных и эволюционной модели. [41] Следовательно, порог для принятия узла как поддерживаемого обычно выше, чем для начальной загрузки.

Методы подсчета шагов [ править ]

Служба поддержки Bremer считает количество дополнительных шагов, необходимых для противоречия кладе.

Недостатки [ править ]

У каждой из этих мер есть свои слабые стороны. Например, клады меньшего или большего размера, как правило, привлекают большую поддержку, чем клады среднего размера, просто в результате количества таксонов в них. [42]

Поддержка Bootstrap может обеспечить высокие оценки поддержки узла в результате шума в данных, а не истинного существования клады. [43]

Ограничения и обходные пути [ править ]

В конечном счете, невозможно измерить, является ли конкретная филогенетическая гипотеза точной или нет, если истинные отношения между исследуемыми таксонами уже не известны (что может произойти с бактериями или вирусами в лабораторных условиях). Лучший результат, на который может надеяться эмпирический филогенетик, - это дерево с ветвями, которые хорошо подтверждаются имеющимися доказательствами. Было выявлено несколько потенциальных ловушек:

Гомоплазия [ править ]

Некоторые персонажи с большей вероятностью будут развиваться конвергентно, чем другие; логично, таким символам следует придавать меньший вес при реконструкции дерева. [44] Веса в форме модели эволюции могут быть выведены из наборов молекулярных данных, так что максимальное правдоподобие или байесовскоеметоды могут быть использованы для их анализа. Для молекулярных последовательностей эта проблема усугубляется, когда изучаемые таксоны существенно разошлись. Со временем, прошедшим с момента расхождения двух таксонов, увеличивается вероятность множественных замен в одном и том же сайте или обратных мутаций, все из которых приводят к гомоплазиям. К сожалению, для морфологических данных единственным объективным способом определения сходимости является построение дерева - несколько круговой метод. Даже в этом случае, взвешивание гомоплазированных персонажей [ как? ] действительно приводит к деревьям с лучшими опорами. [44]Дальнейшее уточнение может быть достигнуто за счет того, что изменения в одном направлении будут выше, чем изменения в другом; например, наличие грудных крыльев почти гарантирует их размещение среди крыловидных насекомых, потому что, хотя крылья часто теряются вторично, нет никаких свидетельств того, что они были приобретены более одного раза. [45]

Горизонтальный перенос генов [ править ]

В общем, организмы могут наследовать гены двумя способами: вертикальный перенос генов и горизонтальный перенос генов . Вертикальный перенос генов - это переход генов от родителей к потомству, а горизонтальный (также называемый латеральным) перенос генов происходит, когда гены переходят между неродственными организмами, что является обычным явлением, особенно у прокариот ; Хорошим примером этого является приобретенная устойчивость к антибиотикам в результате обмена генами между различными бактериями, что приводит к появлению видов бактерий с множественной лекарственной устойчивостью. Также были хорошо задокументированы случаи горизонтального переноса генов между эукариотами .

Горизонтальный перенос генов усложнил определение филогении организмов, и сообщалось о несоответствиях в филогении среди определенных групп организмов в зависимости от генов, используемых для построения эволюционных деревьев. Единственный способ определить, какие гены были получены вертикально, а какие - горизонтально, - это экономно предположить, что самый большой набор генов, которые были унаследованы вместе, унаследованы вертикально; это требует анализа большого количества генов.

Гибриды, видообразование, интрогрессии и неполная сортировка по родословной [ править ]

Основное предположение, лежащее в основе математической модели кладистики, - это ситуация, когда виды аккуратно разделяются бифуркационным образом. Хотя такое предположение может иметь больший масштаб (горизонтальный перенос генов, см. Выше), видообразование часто оказывается гораздо менее упорядоченным. Исследования с момента внедрения кладистического метода показали, что видообразование гибридов , которое когда-то считалось редким, на самом деле довольно распространено, особенно у растений. [46] [47] Также распространено парафилетическое видообразование , что делает неприемлемым предположение о бифуркационном паттерне, что приводит скорее к филогенетическим сетям , чем к деревьям. [48] [49] Интрогрессияможет также перемещать гены между разными видами, а иногда и родами, усложняя филогенетический анализ на основе генов. [50] Это явление может способствовать «неполной сортировке по происхождению» и считается обычным явлением для ряда групп. При анализе на уровне видов с этим можно справиться с помощью более крупной выборки или лучшего анализа всего генома. [51] Часто проблемы удается избежать, ограничивая анализ меньшим количеством образцов, не имеющих близкого родства.

Выборка таксона [ править ]

Благодаря развитию передовых методов секвенирования в молекулярной биологии стало возможным собирать большие объемы данных (ДНК или аминокислотные последовательности) для вывода филогенетических гипотез. Например, нередко можно найти исследования с матрицами признаков, основанными на полных митохондриальных геномах (~ 16 000 нуклеотидов у многих животных). Однако моделирование показало, что более важно увеличить количество таксонов в матрице, чем увеличивать количество признаков, потому что чем больше таксонов, тем точнее и надежнее получается филогенетическое дерево. [52] [53] Частично это может быть связано с разрывом длинных ветвей .

Филогенетический сигнал [ править ]

Другим важным фактором, влияющим на точность реконструкции дерева, является то, действительно ли проанализированные данные содержат полезный филогенетический сигнал, термин, который обычно используется для обозначения того, эволюционирует ли персонаж достаточно медленно, чтобы иметь такое же состояние в близкородственных таксонах, в отличие от случайного изменения. . Существуют тесты на филогенетический сигнал. [54]

Непрерывные символы [ править ]

Морфологические признаки, образующие континуум, могут содержать филогенетический сигнал, но их трудно закодировать как отдельные символы. Было использовано несколько методов, одним из которых является кодирование с пропусками, и существуют варианты кодирования с пропусками. [55] В исходной форме кодирования пробелов: [55]

групповые средства для символа сначала упорядочиваются по размеру. Вычисляется объединенное стандартное отклонение внутри группы ... и различия между соседними средними значениями ... сравниваются относительно этого стандартного отклонения. Любая пара смежных средних считается разной и получает разные целочисленные оценки ... если средние значения разделены "пробелом", превышающим стандартное отклонение внутри группы ... умноженное на некоторую произвольную константу.

Если к анализу добавить больше таксонов, промежутки между таксонами могут стать настолько маленькими, что вся информация будет потеряна. Обобщенное кодирование пробелов позволяет решить эту проблему, сравнивая отдельные пары таксонов, а не рассматривая один набор, содержащий все таксоны. [55]

Отсутствующие данные [ править ]

В целом, чем больше данных доступно при построении дерева, тем точнее и надежнее будет полученное дерево. Недостающие данные не более вредны, чем просто наличие меньшего количества данных, хотя влияние наиболее велико, когда большая часть отсутствующих данных относится к небольшому количеству таксонов. Концентрация недостающих данных на небольшом количестве символов дает более надежное дерево. [56]

Роль окаменелостей [ править ]

Поскольку многие признаки связаны с эмбриологическими, мягкотканными или молекулярными признаками, которые (в лучшем случае) почти никогда не окаменевают, а интерпретация окаменелостей более неоднозначна, чем у живых таксонов , у вымерших таксонов почти всегда больше недостающих данных, чем у живых. Однако, несмотря на эти ограничения, включение окаменелостей неоценимо, поскольку они могут предоставить информацию на редких участках деревьев, разрывая длинные ветви и ограничивая промежуточные состояния характера; таким образом, ископаемые таксоны вносят такой же вклад в расслоение деревьев, как и современные таксоны. [57] Окаменелости также могут ограничить возраст родословных и, таким образом, продемонстрировать, насколько дерево согласуется со стратиграфической летописью; [58] стратокладистика включает информацию о возрасте в матрицы данных для филогенетического анализа.

См. Также [ править ]

  • Список программ филогенетики
  • Байесовская сеть
  • Биоинформатика
  • Кладистика
  • Метод покрытия диска
  • Эволюционная динамика
  • Микробная филогенетика
  • ФИЛИП
  • Филогенетические сравнительные методы
  • Филогенетическое дерево
  • Филогенетика
  • Популяционная генетика
  • Количественная сравнительная лингвистика
  • Статистическая классификация
  • Систематика
  • Таксономия (биология)

Ссылки [ править ]

  1. ^ a b Strait DS, Grine FE (декабрь 2004 г.). «Выведение гоминоидов и ранней филогении гоминидов с использованием краниодентальных признаков: роль ископаемых таксонов». Журнал эволюции человека . 47 (6): 399–452. DOI : 10.1016 / j.jhevol.2004.08.008 . PMID  15566946 .
  2. Ходж Т., Коп MJ (октябрь 2000 г.). «Генеалогическое древо миозинов». Журнал клеточной науки . 113 (19): 3353–4. PMID 10984423 . 
  3. ^ a b c d Mount DM (2004 г.). Биоинформатика: анализ последовательности и генома (2-е изд.). Колд-Спринг-Харбор, Нью-Йорк: Лаборатория Колд-Спринг-Харбор. ISBN 978-0-87969-712-9.
  4. ^ Б с д е е г ч я J к л м Фельзенштейн J (2004). Вывод филогении . Сандерленд, Массачусетс: Sinauer Associates. ISBN 978-0-87893-177-4.
  5. ^ Swiderski DL, ML Zelditch, Финк WL (сентябрь 1998). «Почему морфометрия не особенная: кодирование количественных данных для филогенетического анализа». Систематическая биология . 47 (3): 508–19. JSTOR 2585256 . PMID 12066691 .  
  6. ^ Gaubert P, Wozencraft WC, Кордейр-Estrela P, Верон G (декабрь 2005). «Мозаика конвергенций и шума в морфологических филогенезах: что в виверридоподобном карниворане?» . Систематическая биология . 54 (6): 865–94. DOI : 10.1080 / 10635150500232769 . PMID 16282167 . 
  7. ^ Wiens JJ (2001). «Анализ характера в морфологической филогенетике: проблемы и решения» . Систематическая биология . 50 (5): 689–99. DOI : 10.1080 / 106351501753328811 . PMID 12116939 . 
  8. Перейти ↑ Jenner RA (2001). «Билатерианская филогения и некритическая переработка наборов морфологических данных» . Систематическая биология . 50 (5): 730–42. DOI : 10.1080 / 106351501753328857 . PMID 12116943 . 
  9. Перейти ↑ Sokal R, Michener C (1958). «Статистический метод оценки систематических взаимосвязей» . Бюллетень науки Канзасского университета . 38 : 1409–1438.
  10. ^ Сайтоу Н, М Nei (июль 1987). «Метод объединения соседей: новый метод реконструкции филогенетических деревьев» . Молекулярная биология и эволюция . 4 (4): 406–25. DOI : 10.1093 / oxfordjournals.molbev.a040454 . PMID 3447015 . 
  11. Fitch WM , Margoliash E (январь 1967 г.). «Построение филогенетических деревьев». Наука . 155 (3760): 279–84. Bibcode : 1967Sci ... 155..279F . DOI : 10.1126 / science.155.3760.279 . PMID 5334057 . 
  12. ^ Lespinats S, Грандо D, Марешаль Е, Хакая М.А., Tenaillon О, Бастьно О (2011). «Как алгоритм Фитча-Марголиаша может извлечь выгоду из многомерного масштабирования» . Эволюционная биоинформатика в Интернете . 7 : 61–85. DOI : 10.4137 / EBO.S7048 . PMC 3118699 . PMID 21697992 .  
  13. ^ День WH (1987). «Вычислительная сложность вывода филогении из матриц несходства». Вестник математической биологии . 49 (4): 461–7. DOI : 10.1016 / s0092-8240 (87) 80007-1 . PMID 3664032 . 
  14. ^ Hendy MD, Penny D (1982). «Алгоритмы ветвей и границ для определения минимальных эволюционных деревьев». Математические биологические науки . 59 (2): 277–290. DOI : 10.1016 / 0025-5564 (82) 90027-X .
  15. Ратнер В.А., Жарких А.А., Колчанов Н., Родин С., Соловьев С., Антонов А.С. (1995). Молекулярная эволюция . Серия «Биоматематика». 24 . Нью-Йорк: Springer-Verlag. ISBN 978-3-662-12530-4.
  16. ^ Sankoff D, Morel C, Седергрен RJ (октябрь 1973). «Эволюция 5S РНК и неслучайность замены оснований». Природа . 245 (147): 232–4. DOI : 10.1038 / newbio245232a0 . PMID 4201431 . 
  17. ^ а б Де Лаэт Дж (2005). «Экономия и проблема неприменимости данных в последовательности». В Альберте В.А. (ред.). Экономия, филогения и геномика . Издательство Оксфордского университета. С. 81–116. ISBN 978-0-19-856493-5.
  18. ^ Wheeler WC, Гладштейн DS (1994). «MALIGN: программа выравнивания множественных последовательностей нуклеиновых кислот». Журнал наследственности . 85 (5): 417–418. DOI : 10.1093 / oxfordjournals.jhered.a111492 .
  19. Simmons MP (июнь 2004 г.). «Независимость выравнивания и поиска по дереву». Молекулярная филогенетика и эволюция . 31 (3): 874–9. DOI : 10.1016 / j.ympev.2003.10.008 . PMID 15120385 . 
  20. ^ Де Лает J (2015). «Экономичный анализ данных невыровненных последовательностей: максимизация гомологии и минимизация гомоплазии, а не минимизация операционных затрат или минимизация одинаково взвешенных преобразований» . Кладистика . 31 (5): 550–567. DOI : 10.1111 / cla.12098 .
  21. Chor B, Tuller T (июнь 2005 г.). «Максимальная вероятность эволюционных деревьев: твердость и приближение» . Биоинформатика . 21 Дополнение 1: i97–106. DOI : 10.1093 / биоинформатики / bti1027 . PMID 15961504 . 
  22. ^ Эль-Кебир М, Oesper л, Ачесон-поле Н, Рафаэль BJ (июнь 2015). «Реконструкция клональных деревьев и опухолевого состава из данных секвенирования с несколькими образцами» . Биоинформатика . 31 (12): i62-70. DOI : 10.1093 / биоинформатики / btv261 . PMC 4542783 . PMID 26072510 .  
  23. ^ Malikic S, McPherson AW, Donmez N, Sahinalp CS (май 2015). «Вывод клональности в нескольких образцах опухолей с использованием филогении» . Биоинформатика . 31 (9): 1349–56. DOI : 10.1093 / биоинформатики / btv003 . PMID 25568283 . 
  24. Перейти ↑ Mau B, Newton MA (1997). «Филогенетический вывод для двоичных данных на дендрограммах с использованием цепи Маркова Монте-Карло». Журнал вычислительной и графической статистики . 6 (1): 122–131. DOI : 10.2307 / 1390728 . JSTOR 1390728 . 
  25. ^ Ян Z, Rannala В (июль 1997 года). «Байесовский филогенетический вывод с использованием последовательностей ДНК: метод Монте-Карло цепи Маркова» . Молекулярная биология и эволюция . 14 (7): 717–24. DOI : 10.1093 / oxfordjournals.molbev.a025811 . PMID 9214744 . 
  26. ^ Kolaczkowski B, Thornton JW (декабрь 2009). Делпорт W (ред.). «Предвзятость притяжения длинных ветвей и непоследовательность в байесовской филогенетике» . PLOS ONE . 4 (12): e7891. Bibcode : 2009PLoSO ... 4,7891K . DOI : 10.1371 / journal.pone.0007891 . PMC 2785476 . PMID 20011052 .  
  27. Перейти ↑ Simmons, MP (2012). «Вводящие в заблуждение результаты филогенетического анализа на основе правдоподобия при наличии недостающих данных». Кладистика . 28 (2): 208–222. DOI : 10.1111 / j.1096-0031.2011.00375.x . S2CID 53123024 . 
  28. ^ Larget B (июль 2013). «Оценка дерева апостериорных вероятностей с использованием условных распределений вероятностей клады» . Систематическая биология . 62 (4): 501–11. DOI : 10.1093 / sysbio / syt014 . PMC 3676676 . PMID 23479066 .  
  29. ↑ a b Ray S, Jia B, Safavi S, van Opijnen T, Isberg R, Rosch J, Bento J (22 августа 2019 г.). «Точный вывод в рамках совершенной модели филогении». arXiv : 1908.08623 . Bibcode : 2019arXiv190808623R . Цитировать журнал требует |journal=( помощь )
  30. Jiang Y, Qiu Y, Minn AJ, Zhang NR (сентябрь 2016 г.). «Оценка внутриопухолевой гетерогенности и отслеживание продольной и пространственной истории эволюции клонов с помощью секвенирования следующего поколения» . Труды Национальной академии наук Соединенных Штатов Америки . 113 (37): E5528-37. DOI : 10.1073 / pnas.1522203113 . PMC 5027458 . PMID 27573852 .  
  31. ^ Deshwar А.Г., Vembu S, Yung CK, Джанг GH, Штейн л, Моррис Q (февраль 2015). «PhyloWGS: реконструкция субклонального состава и эволюции на основе полногеномного секвенирования опухолей» . Геномная биология . 16 (1): 35. DOI : 10.1186 / s13059-015-0602-8 . PMC 4359439 . PMID 25786235 .  
  32. ^ Б с д е е Sullivan J, P Joyce (2005). «Выбор модели в филогенетике» . Ежегодный обзор экологии, эволюции и систематики . 36 (1): 445–466. DOI : 10.1146 / annurev.ecolsys.36.102003.152633 . PMC 3144157 . PMID 20671039 .  
  33. ^ Galtier N, Гуи M (июль 1998). «Вывод модели и процесса: реализация с максимальной вероятностью неоднородной модели эволюции последовательности ДНК для филогенетического анализа» . Молекулярная биология и эволюция . 15 (7): 871–9. DOI : 10.1093 / oxfordjournals.molbev.a025991 . PMID 9656487 . 
  34. Fitch WM, Markowitz E (октябрь 1970 г.). «Усовершенствованный метод определения изменчивости кодонов в гене и его применение для определения скорости фиксации мутаций в процессе эволюции». Биохимическая генетика . 4 (5): 579–93. DOI : 10.1007 / bf00486096 . PMID 5489762 . S2CID 26638948 .  
  35. Pol D (декабрь 2004 г.). «Эмпирические задачи теста иерархического отношения правдоподобия для выбора модели» . Систематическая биология . 53 (6): 949–62. DOI : 10.1080 / 10635150490888868 . PMID 15764562 . 
  36. Перейти ↑ Bast F (2013). «Поиск сходства последовательностей, множественное выравнивание последовательностей, выбор модели, матрица расстояний и реконструкция филогении» . Обмен протоколами . DOI : 10.1038 / protex.2013.065 .
  37. Ruan Y, House GL, Ekanayake S, Schütte U, Bever JD, Tang H, Fox G (26 мая 2014 г.). «Интеграция кластеризации и многомерного масштабирования для определения филогенетических деревьев в виде сферических филограмм, визуализированных в 3-х измерениях». 2014 14-й международный симпозиум IEEE / ACM по кластерам, облачным и сетевым вычислениям . IEEE. С. 720–729. DOI : 10.1109 / CCGrid.2014.126 . ISBN 978-1-4799-2784-5. S2CID  9581901 .
  38. Перейти ↑ Baum DA, Smith SD (2013). Мышление о деревьях: введение в филогенетическую биологию . Робертс. п. 442. ISBN. 978-1-936221-16-5.
  39. ^ Фельзенштейн J (июль 1985). «Пределы уверенности в филогении: подход с использованием Bootstrap». Эволюция; Международный журнал органической эволюции . 39 (4): 783–791. DOI : 10.2307 / 2408678 . JSTOR 2408678 . PMID 28561359 .  
  40. Перейти ↑ Hillis DM, Bull JJ (1993). «Эмпирический тест бутстрепинга как метод оценки уверенности в филогенетическом анализе». Систематическая биология . 42 (2): 182–192. DOI : 10.1093 / sysbio / 42.2.182 . ISSN 1063-5157 . 
  41. ^ Huelsenbeck J, Rannala B (декабрь 2004). «Частотные свойства байесовских апостериорных вероятностей филогенетических деревьев при простых и сложных моделях замещения» . Систематическая биология . 53 (6): 904–13. DOI : 10.1080 / 10635150490522629 . PMID 15764559 . 
  42. ^ Chemisquy М.А., Prevosti FJ (2013). «Оценка эффекта размера клады в альтернативных мерах поддержки отрасли». Журнал зоологической систематики и эволюционных исследований . 51 (4): 260–273. DOI : 10.1111 / jzs.12024 .
  43. ^ Филлипс MJ, Delsuc F, D Penny (июль 2004). «Филогения в масштабе генома и обнаружение систематических ошибок» (PDF) . Молекулярная биология и эволюция . 21 (7): 1455–8. DOI : 10.1093 / molbev / msh137 . PMID 15084674 .  
  44. ^ a b Голобофф П.А., Карпентер Дж. М., Ариас Дж. С., Эскивель Д. Р. (2008). «Взвешивание против гомоплазии улучшает филогенетический анализ наборов морфологических данных». Кладистика . 24 (5): 758–773. DOI : 10.1111 / j.1096-0031.2008.00209.x . hdl : 11336/82003 . S2CID 913161 . 
  45. ^ Goloboff PA (1997). «Самовзвешенная оптимизация: поиск по дереву и реконструкция состояния персонажа при предполагаемых затратах на преобразование». Кладистика . 13 (3): 225–245. DOI : 10.1111 / j.1096-0031.1997.tb00317.x . S2CID 196595734 . 
  46. Перейти ↑ Arnold ML (1996). Естественная гибридизация и эволюция . Нью-Йорк: Издательство Оксфордского университета. п. 232. ISBN. 978-0-19-509975-1.
  47. ^ Вендель JF, Doyle JJ (1998). «Секвенирование ДНК». В Soltis DE, Soltis PS , Doyle JJ (ред.). Молекулярная систематика растений II . Бостон: Клувер. С. 265–296. ISBN 978-0-19-535668-7.
  48. ^ Funk DJ, Omland KE (2003). «Парафилия и полифилия на уровне видов: частота, причины и последствия, с учетом митохондриальной ДНК животных». Ежегодный обзор экологии, эволюции и систематики . 34 : 397–423. DOI : 10.1146 / annurev.ecolsys.34.011802.132421 .
  49. ^ «Генеалогия жизни (GoLife)» . Национальный научный фонд . Дата обращения 5 мая 2015 . Программа GoLife основывается на программе AToL, учитывая сложность моделей диверсификации на протяжении всей истории жизни. Наши текущие знания о таких процессах, как гибридизация, эндосимбиоз и латеральный перенос генов, ясно показывают, что эволюционная история жизни на Земле не может быть точно изображена как единое типологическое бифуркационное дерево.
  50. Перейти ↑ Qu Y, Zhang R, Quan Q, Song G, Li SH, Lei F (декабрь 2012 г.). «Неполная сортировка по происхождению или вторичная примесь: устранение исторического расхождения с недавним потоком генов у винегорлого попугая (Paradoxornis webbianus)». Молекулярная экология . 21 (24): 6117–33. DOI : 10.1111 / mec.12080 . PMID 23095021 . S2CID 22635918 .  
  51. Перейти ↑ Pollard DA, Iyer VN, Moses AM, Eisen MB (октябрь 2006 г.). «Широко распространенное несоответствие генных деревьев дереву видов у Drosophila: свидетельство неполной сортировки по происхождению» . PLOS Genetics . 2 (10): e173. DOI : 10.1371 / journal.pgen.0020173 . PMC 1626107 . PMID 17132051 .  
  52. ^ Zwickl DJ, Хиллиса DM (август 2002). «Увеличение выборки таксонов значительно снижает филогенетические ошибки» . Систематическая биология . 51 (4): 588–98. DOI : 10.1080 / 10635150290102339 . PMID 12228001 . 
  53. ^ Wiens JJ (февраль 2006). «Недостающие данные и дизайн филогенетических анализов». Журнал биомедицинской информатики . 39 (1): 34–42. DOI : 10.1016 / j.jbi.2005.04.001 . PMID 15922672 . 
  54. Перейти ↑ Blomberg SP, Garland T, Ives AR (апрель 2003 г.). «Тестирование филогенетического сигнала в сравнительных данных: поведенческие черты более лабильны» . Эволюция; Международный журнал органической эволюции . 57 (4): 717–45. DOI : 10.1111 / j.0014-3820.2003.tb00285.x . PMID 12778543 . S2CID 221735844 .  
  55. ^ а б в Арчи JW (1985). «Методы кодирования переменных морфологических признаков для численного таксономического анализа» . Систематическая зоология . 34 (3): 326–345. DOI : 10.2307 / 2413151 . JSTOR 2413151 . 
  56. ^ Prevosti FJ, Chemisquy MA (2009). «Влияние отсутствующих данных на реальные морфологические филогении: влияние количества и распределения отсутствующих записей». Кладистика . 26 (3): 326–339. DOI : 10.1111 / j.1096-0031.2009.00289.x . ЛВП : 11336/69010 . S2CID 86850694 . 
  57. ^ Коббет A, Wilkinson M, Wills MA (октябрь 2007). «Окаменелости воздействуют так же сильно, как живые таксоны в экономном анализе морфологии» . Систематическая биология . 56 (5): 753–66. DOI : 10.1080 / 10635150701627296 . PMID 17886145 . 
  58. ^ Huelsenbeck JP (1994). «Сравнение стратиграфической записи с оценками филогении». Палеобиология . 20 (4): 470–483. DOI : 10,1017 / s009483730001294x . JSTOR 2401230 . 

Дальнейшее чтение [ править ]

  • Семпл C, Сталь M (2003). Филогенетика . Издательство Оксфордского университета. ISBN 978-0-19-850942-4.
  • Ципра Б.А. (2007). «Алгебраические геометры видят идеальный подход к биологии» (PDF) . Новости SIAM . 40 (6). Архивировано 3 марта 2016 года из оригинального (PDF) .
  • Press WH, Teukolsky SA, Vetterling WT, Flannery BP (2007). «Раздел 16.4. Иерархическая кластеризация по филогенетическим деревьям» . Числовые рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-88068-8.
  • Хусон Д.Х., Рупп Р., Скорнавакка С. (2010). Филогенетические сети: концепции, алгоритмы и приложения . Издательство Кембриджского университета. ISBN 978-1-139-49287-4.

Внешние ссылки [ править ]

  • СМИ, связанные с вычислительной филогенетикой, на Викискладе?