Присоединение к соседу

В биоинформатики , сосед присоединения снизу вверх (агломерационного) кластеризация метод для создания филогенетических деревьев , созданного Naruya Saitou и Masatoshi Nei в 1987 году ^[1] Обычно используется для деревьев , основанных на ДНК или белковых последовательностей данных, алгоритм требует знание расстояния между каждой парой таксонов (например, видами или последовательностями) для формирования дерева. ^[2]

Алгоритм

Начиная со звездообразного дерева (A), вычисляется матрица Q, которая используется для выбора пары узлов для объединения, в данном случае f и g. Они присоединяются к вновь созданному узлу u, как показано на (B). Часть дерева, показанная сплошными линиями, теперь зафиксирована и не будет изменена на последующих этапах соединения. Расстояния от узла u до узлов ae вычисляются из уравнения ( 3 ). Затем этот процесс повторяется с использованием матрицы только расстояний между узлами a, b, c, d, e и u и полученной из нее Q-матрицы. В этом случае u и e присоединяются к вновь созданному v, как показано на (C). Еще две итерации приводят сначала к (D), а затем к (E), после чего алгоритм завершается, так как дерево полностью разрешено.

Соединение соседей принимает в качестве входных данных матрицу расстояний, определяющую расстояние между каждой парой таксонов. Алгоритм начинается с полностью неразрешенного дерева, топология которого соответствует топологии звездообразной сети , и повторяется по следующим шагам, пока дерево не будет полностью разрешено и все длины ветвей не будут известны:

На основе текущей матрицы расстояний вычисляем матрицу ${\ displaystyle Q}$ (определено ниже).
Найдите пару различных таксонов i и j (т. Е. С ${\ displaystyle i \ neq j}$ ) для которого ${\ Displaystyle Q (я, j)}$ имеет самое низкое значение. Эти таксоны присоединяются к вновь созданному узлу, который связан с центральным узлом. На рисунке справа f и g присоединены к новому узлу u.
Рассчитайте расстояние от каждого таксона в паре до этого нового узла.
Рассчитайте расстояние от каждого таксона за пределами этой пары до нового узла.
Запустите алгоритм снова, заменив пару объединенных соседей новым узлом и используя расстояния, вычисленные на предыдущем шаге.

Q-матрица

На основе матрицы расстояний, связывающей ${\ displaystyle n}$ таксоны, вычислить ${\ displaystyle Q}$ следующим образом:

{\ Displaystyle Q (я, j) ​​= (п-2) d (я, j) ​​- \ сумма _ {к = 1} ^ {n} d (я, к) - \ сумма _ {к = 1} ^ {n} d (j, k)}

( 1 )

где ${\ displaystyle d (я, j)}$ расстояние между таксонами ${\ displaystyle i}$ а также ${\ displaystyle j}$ .

Расстояние от членов пары до нового узла

Для каждого таксона в соединяемой паре используйте следующую формулу, чтобы вычислить расстояние до нового узла:

{\ displaystyle \ delta (f, u) = {\ frac {1} {2}} d (f, g) + {\ frac {1} {2 (n-2)}} \ left [\ sum _ { k = 1} ^ {n} d (f, k) - \ sum _ {k = 1} ^ {n} d (g, k) \ right] \ quad}

( 2 )

а также:

{\ displaystyle \ delta (g, u) = d (f, g) - \ delta (f, u) \ quad}

Таксоны ${\ displaystyle f}$ а также ${\ displaystyle g}$ парные таксоны и ${\ displaystyle u}$ это вновь созданный узел. Соединение ветвей ${\ displaystyle f}$ а также ${\ displaystyle u}$ а также ${\ displaystyle g}$ а также ${\ displaystyle u}$ , и их длина, ${\ Displaystyle \ дельта (е, и)}$ а также ${\ Displaystyle \ дельта (г, и)}$ являются частью дерева, которое постепенно создается; они не влияют и не затрагиваются последующими этапами присоединения соседей.

Расстояние других таксонов от нового узла

Для каждого таксона, не рассмотренного на предыдущем шаге, мы вычисляем расстояние до нового узла следующим образом:

{\ displaystyle d (u, k) = {\ frac {1} {2}} [d (f, k) + d (g, k) -d (f, g)]}

( 3 )

где ${\ displaystyle u}$ это новый узел, ${\ displaystyle k}$ это узел, расстояние до которого мы хотим вычислить, и ${\ displaystyle f}$ а также ${\ displaystyle g}$ члены пары только что присоединились.

Сложность

Сосед присоединяется к набору ${\ displaystyle n}$ таксоны требует ${\ displaystyle n-3}$ итераций. На каждом этапе нужно строить и искать ${\ displaystyle Q}$ матрица. Первоначально ${\ displaystyle Q}$ матрица размер ${\ Displaystyle п \ раз п}$ , то следующим шагом будет ${\ Displaystyle (п-1) \ раз (п-1)}$ и т.д. Прямая реализация этого приводит к алгоритму с временной сложностью ${\ Displaystyle О (п ^ {3})}$ ; ^[3] существуют реализации, которые в среднем используют эвристику гораздо лучше, чем эта. ^[4]

Пример

Соседство с 5 таксонами. В этом случае 2 шага соединения соседей дают дерево с полностью разрешенной топологией. На ветвях получившегося дерева обозначена их длина.

Допустим, у нас есть пять таксонов ${\ Displaystyle (а, б, в, г, д)}$ и следующая матрица расстояний ${\ displaystyle D}$ :

	а	б	c	d	е
а	0	5	9	9	8
б	5	0	10	10	9
c	9	10	0	8	7
d	9	10	8	0	3
е	8	9	7	3	0

Первый шаг

Первое присоединение

Рассчитываем ${\ displaystyle Q_ {1}}$ значения по уравнению ( 1 ). Например:

{\ Displaystyle Q_ {1} (a, b) = (n-2) d (a, b) - \ sum _ {k = 1} ^ {5} d (a, k) - \ sum _ {k = 1} ^ {5} d (b, k)}

{\ displaystyle = (5-2) \ times 5- (5 + 9 + 9 + 8) - (5 + 10 + 10 + 9) = 15-31-34 = -50}

Получаем следующие значения для ${\ displaystyle Q_ {1}}$ матрица (диагональные элементы матрицы не используются и здесь опускаются):

	а	б	c	d	е
а		−50	−38	−34	−34
б	−50		−38	−34	−34
c	−38	−38		−40	−40
d	−34	−34	−40		−48
е	−34	−34	−40	−48

В приведенном выше примере ${\ displaystyle Q_ {1} (a, b) = - 50}$ . Это наименьшее значение ${\ displaystyle Q_ {1}}$ , поэтому мы соединяем элементы ${\ displaystyle a}$ а также ${\ displaystyle b}$ .

Оценка длины первой ветви

Позволять ${\ displaystyle u}$ обозначают новый узел. По уравнению ( 2 ), приведенному выше, ветви, соединяющие ${\ displaystyle a}$ а также ${\ displaystyle b}$ к ${\ displaystyle u}$ тогда имейте длины:

{\ displaystyle \ delta (a, u) = {\ frac {1} {2}} d (a, b) + {\ frac {1} {2 (5-2)}} \ left [\ sum _ { k = 1} ^ {5} d (a, k) - \ sum _ {k = 1} ^ {5} d (b, k) \ right] \ quad = {\ frac {5} {2}} + {\ frac {31-34} {6}} = 2}

{\ displaystyle \ delta (b, u) = d (a, b) - \ delta (a, u) \ quad = 5-2 = 3}

Первое обновление матрицы расстояний

Затем мы приступаем к обновлению исходной матрицы расстояний. ${\ displaystyle D}$ в новую матрицу расстояний ${\ displaystyle D_ {1}}$ (см. ниже), уменьшенного в размере на одну строку и один столбец из-за объединения ${\ displaystyle a}$ с участием ${\ displaystyle b}$ в своего соседа ${\ displaystyle u}$ . Используя уравнение ( 3 ) выше, мы вычисляем расстояние от ${\ displaystyle u}$ к каждому из других узлов, кроме ${\ displaystyle a}$ а также ${\ displaystyle b}$ . В этом случае получаем:

{\ displaystyle d (u, c) = {\ frac {1} {2}} [d (a, c) + d (b, c) -d (a, b)] = {\ frac {9 + 10 -5} {2}} = 7}

{\ displaystyle d (u, d) = {\ frac {1} {2}} [d (a, d) + d (b, d) -d (a, b)] = {\ frac {9 + 10 -5} {2}} = 7}

{\ displaystyle d (u, e) = {\ frac {1} {2}} [d (a, e) + d (b, e) -d (a, b)] = {\ frac {8 + 9 -5} {2}} = 6}

Результирующая матрица расстояний ${\ displaystyle D_ {1}}$ является:

	ты	c	d	е
ты	0	7	7	6
c	7	0	8	7
d	7	8	0	3
е	6	7	3	0

Значения, выделенные жирным шрифтом ${\ displaystyle D_ {1}}$ соответствуют вновь рассчитанным расстояниям, тогда как значения, выделенные курсивом, не затрагиваются обновлением матрицы, поскольку они соответствуют расстояниям между элементами, не участвующими в первом соединении таксонов.

Второй шаг

Второе присоединение

Соответствующие ${\ displaystyle Q_ {2}}$ матрица:

	ты	c	d	е
ты		−28	−24	−24
c	−28		−24	−24
d	−24	−24		−28
е	−24	−24	−28

Мы можем выбрать присоединиться ${\ displaystyle u}$ а также ${\ displaystyle c}$ , или присоединиться ${\ displaystyle d}$ а также ${\ displaystyle e}$ ; обе пары имеют минимальный ${\ displaystyle Q_ {2}}$ значение ${\ displaystyle -28}$ , и любой выбор приводит к одному и тому же результату. Для конкретности присоединяемся ${\ displaystyle u}$ а также ${\ displaystyle c}$ и назовите новый узел ${\ displaystyle v}$ .

Оценка длины второй ветви

Длина стыковки ветвей ${\ displaystyle u}$ а также ${\ displaystyle c}$ к ${\ displaystyle v}$ можно рассчитать:

{\ displaystyle \ delta (u, v) = {\ frac {1} {2}} d (u, c) + {\ frac {1} {2 (4-2)}} \ left [\ sum _ { k = 1} ^ {4} d (u, k) - \ sum _ {k = 1} ^ {4} d (c, k) \ right] \ quad = {\ frac {7} {2}} + {\ frac {20-22} {4}} = 3}

{\ displaystyle \ delta (c, v) = d (u, c) - \ delta (u, v) \ quad = 7-3 = 4}

Соединение элементов и расчет длины ответвления помогают нарисовать дерево соединения соседей, как показано на рисунке .

Обновление второй матрицы расстояний

Обновленная матрица расстояний ${\ displaystyle D_ {2}}$ для остальных 3 узлов, ${\ displaystyle v}$ , ${\ displaystyle d}$ , а также ${\ displaystyle e}$ , теперь вычисляется:

{\ displaystyle d (v, d) = {\ frac {1} {2}} [d (u, d) + d (c, d) -d (u, c)] = {\ frac {7 + 8 -7} {2}} = 4}

{\ displaystyle d (v, e) = {\ frac {1} {2}} [d (u, e) + d (c, e) -d (u, c)] = {\ frac {6 + 7 -7} {2}} = 3}

	v	d	е
v	0	4	3
d	4	0	3
е	3	3	0

Заключительный этап

На этом этапе топология дерева полностью решена. Однако для наглядности мы можем рассчитать ${\ displaystyle Q_ {3}}$ матрица. Например:

{\ Displaystyle Q_ {3} (v, e) = (3-2) d (v, e) - \ sum _ {k = 1} ^ {3} d (v, k) - \ sum _ {k = 1} ^ {3} d (e, k) = 3-7-6 = -10}

	v	d	е
v		−10	−10
d	−10		−10
е	−10	−10

Для конкретности присоединяемся ${\ displaystyle v}$ а также ${\ displaystyle d}$ и вызовем последний узел ${\ displaystyle w}$ . Длину трех оставшихся ветвей можно рассчитать:

{\ displaystyle \ delta (v, w) = {\ frac {1} {2}} d (v, d) + {\ frac {1} {2 (3-2)}} \ left [\ sum _ { k = 1} ^ {3} d (v, k) - \ sum _ {k = 1} ^ {3} d (d, k) \ right] \ quad = {\ frac {4} {2}} + {\ frac {7-7} {2}} = 2}

{\ displaystyle \ delta (w, d) = d (v, d) - \ delta (v, w) = 4-2 = 2}

{\ displaystyle \ delta (w, e) = d (v, e) - \ delta (v, w) = 3-2 = 1}

Теперь дерево присоединения соседей завершено, как показано на рисунке .

Вывод: аддитивные расстояния

Этот пример представляет собой идеализированный случай: обратите внимание, что если мы перейдем от любого таксона к любому другому по ветвям дерева и просуммируем длины пройденных ветвей, результат будет равен расстоянию между этими таксонами во входной матрице расстояний. Например, переход от ${\ displaystyle d}$ к ${\ displaystyle b}$ у нас есть ${\ Displaystyle 2 + 2 + 3 + 3 = 10}$ . Матрица расстояний, расстояния которой совпадают таким образом с некоторым деревом, называется «аддитивной», что редко встречается на практике. Тем не менее, важно отметить, что, учитывая аддитивную матрицу расстояний в качестве входных данных, соединение соседей гарантированно найдет дерево, расстояния между таксонами которого согласуются с ним.

Соседство как минимальная эволюция

Объединение соседей можно рассматривать как жадную эвристику для критерия сбалансированного минимального развития ^[5] (BME). Для каждой топологии BME определяет длину дерева (сумму длин ветвей) как конкретную взвешенную сумму расстояний в матрице расстояний, причем веса зависят от топологии. Оптимальная топология BME - это та, которая минимизирует длину этого дерева. Присоединение соседей на каждом шаге жадно присоединяется к той паре таксонов, которая дает наибольшее уменьшение предполагаемой длины дерева. Эта процедура не гарантирует нахождения оптимума по критерию BME, хотя часто дает и обычно довольно близка.

Преимущества и недостатки

Главное достоинство NJ в том, что он быстр ^[6]^{: 466} по сравнению с методами наименьших квадратов , максимальной экономии и максимального правдоподобия . ^[6] Это делает его практичным для анализа больших наборов данных (сотни или тысячи таксонов) и для самонастройки , для чего другие средства анализа (например, максимальная экономия , максимальная вероятность ) могут быть недоступны с вычислительной точки зрения .

Соединение соседей имеет свойство, заключающееся в том, что если входная матрица расстояний верна, то и выходное дерево будет правильным. Более того, правильность топологии выходного дерева гарантируется, пока матрица расстояний является «почти аддитивной», в частности, если каждая запись в матрице расстояний отличается от истинного расстояния менее чем на половину самой короткой длины ветви в дереве. ^[7] На практике матрица расстояний редко удовлетворяет этому условию, но соединение соседей часто в любом случае создает правильную топологию дерева. ^[8] Правильность объединения соседей для почти аддитивных матриц расстояний подразумевает, что оно статистически согласовано во многих моделях эволюции; учитывая данные достаточной длины, соединение соседей с большой вероятностью восстановит истинное дерево. По сравнению с UPGMA и WPGMA , сосед объединение имеет то преимущество , что она не принимает на себя все родословные развиваться с той же скоростью ( гипотеза молекулярных часов ).

Тем не менее, соединение соседей было в значительной степени вытеснено филогенетическими методами, которые не полагаются на измерения расстояния и обеспечивают превосходную точность в большинстве условий. ^{[ необходима цитата ]} Соединение соседей имеет нежелательную особенность, заключающуюся в том, что оно часто присваивает отрицательную длину некоторым ветвям.

Реализации и варианты

Доступно множество программ, реализующих объединение соседей. RapidNJ и NINJA - это быстрые реализации с типичным временем выполнения, пропорциональным приблизительно квадрату количества таксонов. BIONJ и Weighbor - это варианты объединения соседей, которые повышают его точность за счет использования того факта, что более короткие расстояния в матрице расстояний обычно лучше известны, чем более длинные расстояния. FastME - это реализация тесно связанного метода сбалансированной минимальной эволюции.

Смотрите также

Внешние ссылки

Метод объединения соседей - учебное пособие

[1] Saitou, N .; Ней, М. (1 июля 1987 г.). «Метод объединения соседей: новый метод реконструкции филогенетических деревьев» . Молекулярная биология и эволюция . 4 (4): 406–425. DOI : 10.1093 / oxfordjournals.molbev.a040454 . PMID 3447015 .

[2] Ксавье Дидло (2010). «Последовательный анализ бактериальных популяционных структур» . В Д. Эшли Робинсон; Даниэль Фалуш; Эдвард Дж. Фейл (ред.). Бактериальная популяционная генетика при инфекционных заболеваниях . Джон Уайли и сыновья. С. 46–47. ISBN 978-0-470-42474-2.

[3] Studier, JA; Кепплер, KJ (ноябрь 1988 г.). «Замечание об алгоритме объединения соседей Сайто и Нэя» . Молекулярная биология и эволюция . 5 (6): 729–31. DOI : 10.1093 / oxfordjournals.molbev.a040527 . ISSN 1537-1719 . PMID 3221794 .

[4] Майлунд, Томас; Brodal, GerthS; Фагерберг, Рольф; Педерсен, ChristianNS; Филлипс, Дерек (2006). «Переработка метода объединения соседей» . BMC Bioinformatics . 7 (1): 29. DOI : 10,1186 / 1471-2105-7-29 . PMC 3271233 . PMID 16423304 .

[gascuel-5] Гаскуэл О., Сталь М (2006). «Соседство выявлено» . Mol Biol Evol . 23 (11): 1997–2000. DOI : 10.1093 / molbev / msl072 . PMID 16877499 .

[Kuhner1994-6] а б Kuhner, MK; Фельзенштейн, Дж. (1994-05-01). «Моделирование сравнения алгоритмов филогении при равных и неравных темпах эволюции» . Молекулярная биология и эволюция . 11 (3): 459–468. DOI : 10.1093 / oxfordjournals.molbev.a040126 . ISSN 0737-4038 . PMID 8015439 .

[7] Atteson K (1997). «Производительность алгоритмов объединения соседей при реконструкции филогении», стр. 101–110. В Jiang, T. и Lee, D., eds., Lecture Notes in Computer Science, 1276 , Springer-Verlag, Berlin. КОКОН '97.

[levy-8] Михаеску Р., Леви Д., Пахтер Л. (2009). «Почему работает соседство». Алгоритмика . 54 (1): 1–24. arXiv : cs / 0602041 . DOI : 10.1007 / s00453-007-9116-4 . S2CID 2462145 .CS1 maint: несколько имен: список авторов ( ссылка )

[1]