Из Википедии, бесплатной энциклопедии
  (Перенаправлен из Neighbor-joining )
Перейти к навигации Перейти к поиску

В биоинформатики , сосед присоединения снизу вверх (агломерационного) кластеризация метод для создания филогенетических деревьев , созданного Naruya Saitou и Masatoshi Nei в 1987 году [1] Обычно используется для деревьев , основанных на ДНК или белковых последовательностей данных, алгоритм требует знание расстояния между каждой парой таксонов (например, видами или последовательностями) для формирования дерева. [2]

Алгоритм [ править ]

Начиная со звездного дерева (A), вычисляется матрица Q, которая используется для выбора пары узлов для объединения, в данном случае f и g. Они присоединяются к вновь созданному узлу u, как показано на (B). Часть дерева, показанная сплошными линиями, теперь зафиксирована и не будет изменена на последующих этапах соединения. Расстояния от узла u до узлов ae вычисляются из уравнения ( 3 ). Затем этот процесс повторяется с использованием матрицы только расстояний между узлами a, b, c, d, e и u и полученной из нее Q-матрицы. В этом случае u и e присоединяются к вновь созданному v, как показано на (C). Еще две итерации приводят сначала к (D), а затем к (E), после чего алгоритм завершается, поскольку дерево полностью разрешено.

Соединение соседей принимает в качестве входных данных матрицу расстояний, определяющую расстояние между каждой парой таксонов. Алгоритм начинается с полностью неразрешенного дерева, топология которого соответствует топологии звездообразной сети , и повторяется по следующим шагам, пока дерево не будет полностью разрешено и все длины ветвей не будут известны:

  1. На основе текущей матрицы расстояний рассчитайте матрицу (определенную ниже).
  2. Найдите пару различных таксонов i и j (т.е. с ), для которых имеет наименьшее значение. Эти таксоны присоединяются к вновь созданному узлу, который связан с центральным узлом. На рисунке справа f и g присоединены к новому узлу u.
  3. Рассчитайте расстояние от каждого таксона в паре до этого нового узла.
  4. Рассчитайте расстояние от каждого таксона за пределами этой пары до нового узла.
  5. Запустите алгоритм снова, заменив пару объединенных соседей новым узлом и используя расстояния, вычисленные на предыдущем шаге.

Q-матрица [ править ]

На основе матрицы расстояний, относящейся к таксонам, рассчитайте следующим образом:

где - расстояние между таксонами и .

Расстояние от членов пары до нового узла [ править ]

Для каждого таксона в соединяемой паре используйте следующую формулу, чтобы вычислить расстояние до нового узла:

а также:

Таксоны и являются парными таксонами и являются вновь созданным узлом. Ветви присоединения и и и , а их длина, и являются частью дерева , которое постепенно создаются; они не влияют и не затрагиваются последующими этапами присоединения соседей.

Расстояние других таксонов от нового узла [ править ]

Для каждого таксона, не рассмотренного на предыдущем шаге, мы вычисляем расстояние до нового узла следующим образом:

где - новый узел, - это узел, расстояние до которого мы хотим вычислить, и являются членами только что соединенной пары.

Сложность [ править ]

Присоединение соседей к набору таксонов требует итераций. На каждом шаге нужно строить и искать матрицу. Сначала матрица имеет размер , затем - следующий шаг и т. Д. Прямая реализация этого приводит к алгоритму с временной сложностью ; [3] существуют реализации, которые в среднем используют эвристику гораздо лучше, чем эта. [4]

Пример [ править ]

Соседство с 5 таксонами. В этом случае 2 шага соединения соседей дают дерево с полностью разрешенной топологией. На ветвях получившегося дерева обозначена их длина.

Предположим, что у нас есть пять таксонов и следующая матрица расстояний :

Первый шаг [ править ]

Первое присоединение [ править ]

Рассчитываем значения по уравнению ( 1 ). Например:

Получаем следующие значения для матрицы (диагональные элементы матрицы не используются и здесь опускаются):

В приведенном выше примере . Это наименьшее значение , поэтому мы соединяем элементы и .

Оценка длины первой ветви [ править ]

Позвольте обозначить новый узел. По уравнению ( 2 ), выше, ветви присоединения и к затем иметь длину:

Первое обновление матрицы расстояний [ править ]

Затем мы приступаем к обновлению исходной матрицы расстояний до новой матрицы расстояний (см. Ниже), уменьшенной в размере на одну строку и один столбец из-за объединения с их соседом . Используя уравнение ( 3 ) выше, мы вычисляем расстояние от каждого из других узлов, кроме и . В этом случае получаем:

Результирующая матрица расстояний :

Значения, выделенные жирным шрифтом, соответствуют вновь рассчитанным расстояниям, тогда как значения, выделенные курсивом, не затрагиваются обновлением матрицы, поскольку они соответствуют расстояниям между элементами, не участвующими в первом соединении таксонов.

Второй шаг [ править ]

Второе присоединение [ править ]

Соответствующая матрица:

Мы можем выбрать либо присоединиться к и , либо присоединиться к и ; обе пары имеют минимальное значение , и любой выбор приводит к одному и тому же результату. Для конкретности присоединимся к и и вызовем новый узел .

Оценка длины второй ветви [ править ]

Длины стыковки ветвей и до могут быть рассчитаны:

Соединение элементов и расчет длины ответвления помогают нарисовать дерево соединения соседей, как показано на рисунке .

Обновление матрицы второго расстояния [ править ]

Обновляется матрица расстояний для остальных узлов 3, , , и , теперь вычисляются:

Последний шаг [ править ]

На этом этапе топология дерева полностью решена. Однако для наглядности мы можем вычислить матрицу. Например:

Для конкретности подключим и и вызовем последний узел . Длину трех оставшихся ветвей можно рассчитать:

Теперь дерево присоединения соседей завершено, как показано на рисунке .

Заключение: аддитивные расстояния [ править ]

Этот пример представляет идеализированный случай: обратите внимание, что если мы перейдем от одного таксона к любому другому по ветвям дерева и просуммируем длины пройденных ветвей, результат будет равен расстоянию между этими таксонами во входной матрице расстояний. Например, переходя от к нам . Матрица расстояний, расстояния которой совпадают таким образом с некоторым деревом, называется «аддитивной», что редко встречается на практике. Тем не менее, важно отметить, что, учитывая аддитивную матрицу расстояний в качестве входных данных, соединение соседей гарантированно найдет дерево, расстояния между таксонами которого согласуются с ним.

Присоединение соседей как минимальная эволюция [ править ]

Объединение соседей можно рассматривать как жадную эвристику для критерия сбалансированного минимального развития [5] (BME). Для каждой топологии BME определяет длину дерева (сумму длин ветвей) как конкретную взвешенную сумму расстояний в матрице расстояний, причем веса зависят от топологии. Оптимальная топология BME - это та, которая минимизирует длину этого дерева. Присоединение соседей на каждом шаге жадно присоединяется к той паре таксонов, которая дает наибольшее уменьшение предполагаемой длины дерева. Эта процедура не гарантирует нахождения оптимума по критерию BME, хотя часто дает и обычно довольно близка.

Преимущества и недостатки [ править ]

Главное достоинство NJ в том, что он быстр [6] : 466 по сравнению с методами наименьших квадратов , максимальной экономии и максимального правдоподобия . [6] Это делает его практичным для анализа больших наборов данных (сотни или тысячи таксонов) и для самонастройки , для чего другие средства анализа (например, максимальная экономия , максимальная вероятность ) могут быть недоступны с вычислительной точки зрения .

Соединение соседей имеет свойство, заключающееся в том, что если входная матрица расстояний верна, то и выходное дерево будет правильным. Более того, правильность топологии выходного дерева гарантируется, пока матрица расстояний является «почти аддитивной», в частности, если каждая запись в матрице расстояний отличается от истинного расстояния менее чем на половину самой короткой длины ветви в дереве. [7] На практике матрица расстояний редко удовлетворяет этому условию, но соединение соседей часто в любом случае создает правильную топологию дерева. [8] Правильность соединения соседей для почти аддитивных матриц расстояний означает, что это статистически непротиворечиво.под многими моделями эволюции; учитывая данные достаточной длины, соединение соседей с большой вероятностью восстановит истинное дерево. По сравнению с UPGMA и WPGMA , сосед объединение имеет то преимущество , что она не принимает на себя все родословные развиваться с той же скоростью ( гипотеза молекулярных часов ).

Тем не менее, соединение соседей было в значительной степени вытеснено филогенетическими методами, которые не полагаются на измерения расстояния и обеспечивают превосходную точность в большинстве условий. [ необходима цитата ] Соединение соседей имеет нежелательную особенность, заключающуюся в том, что оно часто присваивает отрицательную длину некоторым ветвям.

Реализации и варианты [ править ]

Доступно множество программ, реализующих соединение соседей. RapidNJ и NINJA - это быстрые реализации с типичным временем выполнения, пропорциональным приблизительно квадрату количества таксонов. BIONJ и Weighbor - это варианты объединения соседей, которые повышают его точность за счет использования того факта, что более короткие расстояния в матрице расстояний обычно лучше известны, чем более длинные расстояния. FastME - это реализация тесно связанного метода сбалансированной минимальной эволюции.

См. Также [ править ]

  • Поиск ближайшего соседа
  • UPGMA и WPGMA
  • Минимальная эволюция

Ссылки [ править ]

  1. ^ Saitou, N .; Ней, М. (1 июля 1987 г.). «Метод объединения соседей: новый метод реконструкции филогенетических деревьев» . Молекулярная биология и эволюция . 4 (4): 406–425. DOI : 10.1093 / oxfordjournals.molbev.a040454 . PMID  3447015 .
  2. ^ Xavier Дидло (2010). «Последовательный анализ бактериальных популяционных структур» . В Д. Эшли Робинсон; Даниэль Фалуш; Эдвард Дж. Фейл (ред.). Бактериальная популяционная генетика при инфекционных заболеваниях . Джон Вили и сыновья. С. 46–47. ISBN 978-0-470-42474-2.
  3. ^ Studier, JA; Кепплер, KJ (ноябрь 1988 г.). «Замечание об алгоритме объединения соседей Сайто и Нэя» . Молекулярная биология и эволюция . 5 (6): 729–31. DOI : 10.1093 / oxfordjournals.molbev.a040527 . ISSN 1537-1719 . PMID 3221794 .  
  4. ^ Майлунд, Томас; Brodal, GerthS; Фагерберг, Рольф; Педерсен, ChristianNS; Филлипс, Дерек (2006). «Переработка метода объединения соседей» . BMC Bioinformatics . 7 (1): 29. DOI : 10,1186 / 1471-2105-7-29 . PMC 3271233 . PMID 16423304 .  
  5. ^ Gascuel O, сталь M (2006). «Соседство выявлено» . Mol Biol Evol . 23 (11): 1997–2000. DOI : 10.1093 / molbev / msl072 . PMID 16877499 . 
  6. ^ a b Kuhner, MK; Фельзенштейн, Дж. (1994-05-01). «Моделирование сравнения алгоритмов филогении при равных и неравных темпах эволюции» . Молекулярная биология и эволюция . 11 (3): 459–468. DOI : 10.1093 / oxfordjournals.molbev.a040126 . ISSN 0737-4038 . PMID 8015439 .  
  7. ^ Atteson K (1997). «Производительность алгоритмов объединения соседей при реконструкции филогении», стр. 101–110. В Jiang, T. и Lee, D., eds., Lecture Notes in Computer Science, 1276 , Springer-Verlag, Berlin. КОКОН '97.
  8. ^ Mihaescu R, D Леви, Пэчтер L (2009). «Почему работает соседство». Алгоритмика . 54 (1): 1–24. arXiv : cs / 0602041 . DOI : 10.1007 / s00453-007-9116-4 . S2CID 2462145 . CS1 maint: multiple names: authors list (link)

Другие источники [ править ]

  • Studier JA, Keppler KJ (1988). «Заметка об алгоритме объединения соседей Сайто и Нэя» . Mol Biol Evol . 5 (6): 729–731. DOI : 10.1093 / oxfordjournals.molbev.a040527 . PMID  3221794 .
  • Мартин Симонсен; Томас Майлунд; Кристиан Н.С. Педерсен (2008). Быстрое присоединение соседей (PDF) . Труды WABI . Конспект лекций по информатике. 5251 . С. 113–122. CiteSeerX  10.1.1.218.2078 . DOI : 10.1007 / 978-3-540-87361-7_10 . ISBN 978-3-540-87360-0.[ постоянная мертвая ссылка ]

Внешние ссылки [ править ]

  • Метод объединения соседей - учебное пособие