Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Матрицы расстояний используются в филогении как непараметрические методы расстояния и первоначально применялись к фенетическим данным с использованием матрицы попарных расстояний. Затем эти расстояния согласовываются для создания дерева ( филограммы с информативной длиной ветвей). Матрица расстояния может поступать из ряда различных источников, в том числе измеренного расстояния (например , из иммунологических исследований ) или морфометрического анализа , различные попарно расстояния формул (например, евклидово расстояния ) применяются к дискретным морфологическим признакам, или генетическое расстояние от последовательности, рестрикционный фрагмент , или жеданные аллозима . Для данных филогенетических символов необработанные значения расстояния могут быть рассчитаны путем простого подсчета количества попарных различий в состояниях персонажей ( расстояние Хэмминга ).

Методы матрицы расстояний [ править ]

Матричные методы филогенетического анализа явно полагаются на меру «генетического расстояния» между классифицируемыми последовательностями, и поэтому они требуют MSA (множественное выравнивание последовательностей) в качестве входных данных. Расстояние часто определяется как доля несовпадений в выровненных позициях, при этом промежутки либо игнорируются, либо считаются несовпадениями. [1] Методы расстояния пытаются построить комплексную матрицу из набора запросов последовательности, описывающего расстояние между каждой парой последовательностей. На основе этого строится филогенетическое дерево, которое помещает близкородственные последовательности в один и тот же внутренний узел.и чьи длины ветвей близко воспроизводят наблюдаемые расстояния между последовательностями. Методы матрицы расстояний могут создавать как корневые, так и некорневые деревья, в зависимости от алгоритма, используемого для их вычисления. Они часто используются в качестве основы для прогрессивных и итерационных типов множественного выравнивания последовательностей . Основным недостатком методов матрицы расстояний является их неспособность эффективно использовать информацию о локальных регионах с высокой вариабельностью, которые появляются в нескольких поддеревьях. [2]

Присоединение к соседу [ править ]

Методы объединения соседей применяют общие методы кластеризации данных для анализа последовательности с использованием генетического расстояния в качестве метрики кластеризации. Простой метод соединения соседей дает деревья без корней, но он не предполагает постоянной скорости эволюции (то есть молекулярных часов ) по линиям.

UPGMA и WPGMA [ править ]

UPGMA ( Невзвешенный пар Методы группы с среднеарифметическим значением ) и WPGMA ( Weighted пара Метод группы с арифметическими средним ) методами дают корневые дерева и требуют постоянной скорость предположения - то есть, это предполагает ультраметрическое дерево , в котором расстояние от корня до все кончики веток равны.

Метод Фитча – Марголиаша [ править ]

В методе Фитча – Марголиаша используется метод взвешенных наименьших квадратов для кластеризации на основе генетической дистанции. [3] Тесно связанным последовательностям придается больший вес в процессе построения дерева, чтобы исправить возросшую неточность измерения расстояний между удаленно связанными последовательностями. На практике поправка на расстояние необходима только в том случае, если скорость развития разных ветвей различается. [2] Расстояния, используемые в качестве входных данных для алгоритма, должны быть нормализованы для предотвращения больших артефактов при вычислении отношений между тесно связанными и отдаленно связанными группами. Расстояния, рассчитанные этим методом, должны быть линейными ; критерий линейности для расстояний требует, чтобы ожидаемые значениядлины ветвей для двух отдельных ветвей должны равняться ожидаемому значению суммы двух расстояний ветвей - свойство, которое применяется к биологическим последовательностям только тогда, когда они были скорректированы с учетом возможности обратных мутаций в отдельных сайтах. Эта коррекция осуществляется с помощью матрицы замещения, например, полученной из модели эволюции ДНК Джукса-Кантора .

Критерий наименьших квадратов, применяемый к этим расстояниям, более точен, но менее эффективен, чем методы объединения соседей. Дополнительное улучшение, которое корректирует корреляции между расстояниями, которые возникают из многих тесно связанных последовательностей в наборе данных, также может применяться с увеличенными вычислительными затратами. Нахождение оптимального дерева наименьших квадратов с любым поправочным коэффициентом является NP-полным , [4] поэтому эвристические методы поиска, подобные тем, которые используются в анализе максимальной экономии, применяются к поиску в пространстве дерева.

Использование внешних групп [ править ]

Независимая информация о взаимосвязи между последовательностями или группами может использоваться для уменьшения пространства поиска в дереве и корневых некорневых деревьев. Стандартное использование методов матрицы расстояний включает включение по крайней мере одной внешней групповой последовательности, о которой известно, что она только отдаленно связана с интересующими последовательностями в наборе запроса. [1] Такое использование можно рассматривать как тип экспериментального контроля . Если внешняя группа была выбрана надлежащим образом, она будет иметь гораздо большую генетическую дистанцию.и, следовательно, более длинная ветвь, чем у любой другой последовательности, и она будет появляться рядом с корнем корневого дерева. Выбор подходящей внешней группы требует выбора последовательности, которая умеренно связана с интересующими последовательностями; слишком близкие отношения сводят на нет цель чужой группы, а слишком отдаленные добавляют шум в анализ. [1] Следует также проявлять осторожность, чтобы избежать ситуаций, в которых виды, от которых были взяты последовательности, имеют отдаленное родство, но ген, кодируемый последовательностями, является высококонсервативным в разных линиях. Горизонтальный перенос генов , особенно между разными бактериями , также может затруднить использование чужих групп.

Слабые стороны разных методов [ править ]

В общем, данные о попарных расстояниях являются заниженной оценкой пути-расстояния между таксонами на филограмме . Попарные расстояния эффективно «срезают углы» аналогично географическому расстоянию: расстояние между двумя городами может составлять 100 миль «по прямой», но путешественник может фактически быть вынужден проехать 120 миль из-за расположения дорог, местность, остановки по пути и т. д. Между парами таксонов некоторые изменения характера, которые произошли в наследственных линиях, будут необнаружимы, потому что более поздние изменения стерли доказательства (часто называемые множественными совпадениями и обратными мутациями в данных последовательности). Эта проблема является общей для всех филогенетических оценок, но особенно остро стоит для дистанционных методов, потому что для каждого вычисления расстояния используются только две выборки; другие методы выигрывают от доказательств этих скрытых изменений, обнаруженных в других таксонах, не учитываемых при попарных сравнениях. Для данных нуклеотидных и аминокислотных последовательностей те же стохастические модели изменения нуклеотидов, которые используются в анализе максимального правдоподобия, могут быть использованы для «корректировки» расстояний, что делает анализ «полупараметрическим».

Существует несколько простых алгоритмов для построения дерева непосредственно из попарных расстояний, включая UPGMA и соединение соседей (NJ), но они не обязательно приведут к лучшему дереву для данных. Чтобы противостоять потенциальным осложнениям, упомянутым выше, и найти лучшее дерево для данных, дистанционный анализ может также включать протокол поиска по дереву, который стремится удовлетворить явному критерию оптимальности. К данным о расстоянии обычно применяются два критерия оптимальности: минимальная эволюция (ME) и вывод наименьших квадратов.. Метод наименьших квадратов является частью более широкого класса основанных на регрессии методов, сгруппированных здесь для простоты. Эти формулы регрессии минимизируют остаточные различия между путями-расстояниями вдоль дерева и попарными расстояниями в матрице данных, эффективно «подгоняя» дерево к эмпирическим расстояниям. Напротив, ME принимает дерево с самой короткой суммой длин ветвей и, таким образом, минимизирует общий объем предполагаемой эволюции. ME тесно связан с экономичностью, и при определенных условиях ME-анализ расстояний, основанный на дискретном наборе данных, будет отдавать предпочтение тому же дереву, что и традиционный экономичный анализ тех же данных.

Оценка филогении с использованием дистанционных методов вызвала ряд противоречий. UPGMA предполагает ультраметрическое дерево (дерево, в котором все длины путей от корня до кончиков равны). Если скорость эволюции была одинаковой во всех отобранных линиях ( молекулярные часы ), и если дерево было полностью сбалансировано (равное количество таксонов по обе стороны от любого расщепления, чтобы противостоять эффекту плотности узлов ), UPGMA не должен приводить результат. Эти ожидания не оправдываются большинством наборов данных, и хотя UPGMA в некоторой степени устойчив к их нарушениям, он обычно не используется для оценки филогении. Преимущество UPGMA в том, что он быстр и может обрабатывать множество последовательностей.

Объединение соседей - это форма звездной декомпозиции и, как эвристический метод, обычно является наименее ресурсоемким из этих методов. Он очень часто используется сам по себе, и на самом деле довольно часто дает неплохие деревья. Однако в нем отсутствует какой-либо вид поиска по дереву и критерий оптимальности, поэтому нет гарантии, что восстановленное дерево лучше всего соответствует данным. Более подходящей аналитической процедурой было бы использование NJ для создания начального дерева, а затем использование поиска по дереву с использованием критерия оптимальности, чтобы гарантировать, что лучшее дерево будет восстановлено.

Многие ученые избегают дистанционных методов по разным причинам. Часто цитируемая причина заключается в том, что расстояния по своей природе являются скорее фенетическими , чем филогенетическими , поскольку они не различают родовое сходство ( симплезиоморфия ) и производное сходство ( синапоморфия).). Эта критика не совсем справедлива: большинство современных реализаций экономичности, вероятности и байесовского филогенетического вывода используют модели символов с обратимым временем и, таким образом, не придают особого статуса производным или наследственным состояниям символов. Согласно этим моделям дерево оценивается без корней; укоренение и, как следствие, определение полярности производится после анализа. Основное различие между этими методами и расстояниями заключается в том, что методы экономии, вероятности и байесовского метода соответствуют отдельным символам в дереве, тогда как методы расстояния соответствуют всем символам сразу. В этом подходе нет ничего менее филогенетического по своей сути. [ необходима цитата ]

С практической точки зрения, дистанционных методов избегают, потому что связь между отдельными символами и деревом теряется в процессе сокращения символов до расстояний. Эти методы не используют символьные данные напрямую, и информация, зафиксированная в распределении состояний символов, может быть потеряна при парных сравнениях. Кроме того, некоторые сложные филогенетические отношения могут приводить к смещению расстояний. На любой филограмме длина ветвей будет недооценена, потому что некоторые изменения вообще невозможно обнаружить из-за невозможности отбора проб некоторых видов из-за экспериментального плана или исчезновения (явление, называемое эффектом плотности узлов). Однако даже если парные расстояния от генетических данных «скорректированы» с использованием стохастических моделей эволюции, как упомянуто выше,их легче суммировать в другое дерево, чем в результате анализа тех же данных и модели с использованиеммаксимальная вероятность . Это потому, что попарные расстояния не независимы; каждая ветвь дерева представлена ​​в измерениях расстояний всех таксонов, которые она разделяет. Ошибка, возникающая в результате любой характеристики этой ветви, которая может нарушить филогенез (стохастическая изменчивость, изменение эволюционных параметров, аномально большая или короткая длина ветви), будет распространяться через все соответствующие измерения расстояний. Полученная матрица расстояний может лучше соответствовать альтернативному (предположительно менее оптимальному) дереву.

Несмотря на эти потенциальные проблемы, дистанционные методы чрезвычайно быстры и часто дают разумную оценку филогении. У них также есть определенные преимущества по сравнению с методами, использующими символы напрямую. Примечательно, что дистанционные методы позволяют использовать данные, которые нелегко преобразовать в символьные данные, такие как анализы гибридизации ДНК-ДНК . Они также позволяют проводить анализ, учитывающий возможность того, что скорость, с которой конкретные нуклеотиды встраиваются в последовательности, может варьироваться по дереву с использованием расстояний LogDet . Для некоторых методов оценки сети (особенно NeighborNet), абстракция информации об отдельных символах в данных о расстоянии является преимуществом. Если рассматривать конфликт между персонажем и деревом из-за ретикуляции, конфликт между персонажем и деревом из-за ретикуляции нельзя отличить от конфликта из-за гомоплазии или ошибки. Однако явный конфликт в данных о расстоянии, который представляет собой объединение многих символов, менее вероятен из-за ошибки или гомоплазии, если данные не сильно смещены, и, таким образом, с большей вероятностью является результатом ретикуляции.

Дистанционные методы популярны среди молекулярных систематиков, многие из которых почти всегда используют NJ без стадии оптимизации. С увеличением скорости анализа на основе символов некоторые преимущества дистанционных методов, вероятно, уменьшатся. Тем не менее, почти мгновенные реализации NJ, возможность включить эволюционную модель в быстрый анализ, расстояния LogDet, методы оценки сети и случайная необходимость суммировать отношения с помощью одного числа - все это означает, что методы расстояния, вероятно, останутся в мейнстриме для долгое время впереди.

См. Также [ править ]

Список программ филогенетики

Ссылки [ править ]

  1. ^ a b c Установите DM. (2004). Биоинформатика: анализ последовательности и генома 2-е изд. Лабораторная пресса Колд-Спринг-Харбор: Колд-Спринг-Харбор, Нью-Йорк.
  2. ^ a b Фельзенштейн Дж. (2004). Вывод о филогенезе Sinauer Associates: Сандерленд, Массачусетс.
  3. ^ Fitch WM; Марголиаш Э. (1967). «Построение филогенетических деревьев». Наука . 155 (3760): 279–284. Bibcode : 1967Sci ... 155..279F . DOI : 10.1126 / science.155.3760.279 . PMID  5334057 .
  4. ^ День, WHE (1986). «Вычислительная сложность вывода филогении из матриц несходства». Вестник математической биологии . 49 (4): 461–7. DOI : 10.1016 / s0092-8240 (87) 80007-1 . PMID 3664032 .