Параллельные алгоритмы для минимальных остовных деревьев

В теории графов минимального остовного дерева (MST) ${\ displaystyle T}$ из графика ${\ Displaystyle G = (V, E)}$ с участием ${\ Displaystyle | V | = п}$ а также ${\ displaystyle | E | = m}$ это дерево подграф из ${\ displaystyle G}$ который содержит все его вершины и имеет минимальный вес.

MST - это полезные и универсальные инструменты, используемые в самых разных практических и теоретических областях. Например, компания, которая хочет поставлять в несколько магазинов определенный продукт с одного склада, может использовать MST, исходящий на складе, для расчета кратчайших путей к каждому магазину компании. В этом случае магазины и склад представлены в виде вершин, а дороги между ними - в виде ребер. На каждом ребре обозначена длина соответствующего дорожного соединения.

Если ${\ displaystyle G}$ не весит по ребрам, каждое остовное дерево имеет одинаковое количество ребер и, следовательно, одинаковый вес. В случае взвешенного по рёбрам остовное дерево, сумма весов рёбер которого является наименьшей среди всех остовных деревьев ${\ displaystyle G}$ , называется минимальным остовным деревом (MST). Это не обязательно уникально. В более общем смысле, графы, которые не обязательно связаны, имеют минимальные остовные леса , которые состоят из объединения MST для каждого компонента связности .

Поскольку поиск MST является широко распространенной проблемой в теории графов, существует множество последовательных алгоритмов для ее решения. Среди них алгоритмы Прима , Крускала и Борувки , каждый из которых использует разные свойства MST. Все они работают одинаково - это подмножество ${\ displaystyle E}$ итеративно растет до тех пор, пока не будет обнаружен действительный MST. Однако, поскольку практические проблемы часто бывают довольно большими (дорожные сети иногда имеют миллиарды ребер), производительность является ключевым фактором. Один из вариантов его улучшения - распараллеливание известных алгоритмов MST . ^[1]

Алгоритм Прима

Этот алгоритм использует свойство сокращения MST. Ниже представлена простая реализация высокоуровневого псевдокода:

 ${\ Displaystyle Т \ получает \ emptyset}$  ${\ Displaystyle S \ получает \ {s \}}$  где  ${\ displaystyle s}$  случайная вершина в  ${\ displaystyle V}$ повторить  ${\ displaystyle | V | -1}$  раз найти самый легкий край  ${\ Displaystyle (и, v)}$  ул  ${\ displaystyle u \ in S}$  но  ${\ displaystyle v \ in (V \ setminus S)}$   ${\ displaystyle S \ получает S \ cup \ {v \}}$   ${\ displaystyle T \ получает T \ cup \ {(u, v) \}}$ вернуть T

Каждое ребро наблюдается ровно дважды, а именно при проверке каждой из его конечных точек. Каждая вершина проверяется ровно один раз, всего ${\ Displaystyle О (п + т)}$ кроме выбора самого светлого края на каждой итерации цикла. Этот выбор часто выполняется с использованием очереди приоритетов (PQ). Для каждого ребра не более одного уменьшения Клавиша операция ( амортизируется в ${\ displaystyle O (1)}$ ), и каждая итерация цикла выполняет одну операцию deleteMin ( ${\ Displaystyle О (\ журнал п)}$ ). Таким образом , с помощью чисел Фибоначчи осыпает общее время выполнения алгоритма Прима является асимптотически в ${\ Displaystyle О (т + п \ журнал п)}$ .

Важно отметить, что цикл по своей сути является последовательным и не может быть должным образом распараллелен. Это так, поскольку самый светлый край с одной конечной точкой в ${\ displaystyle S}$ и дальше в ${\ Displaystyle V \ setminus S}$ может измениться с добавлением краев к ${\ displaystyle T}$ . Таким образом, невозможно выполнить два выбора наиболее светлого края одновременно. Однако попытки распараллеливания все же есть .

Одна из возможных идей - использовать ${\ Displaystyle О (п)}$ процессоры для поддержки доступа PQ в ${\ displaystyle O (1)}$ на машине EREW-PRAM , ^[2] таким образом снижая общее время работы до ${\ Displaystyle О (п + т)}$ .

Алгоритм Крускала

Алгоритм MST Крускала использует свойство цикла MST. Ниже представлено высокоуровневое представление псевдокода.

 ${\ Displaystyle Т \ получает}$ лес с каждой вершиной в собственном поддереве foreach  ${\ displaystyle (u, v) \ in E}$ в порядке возрастания веса, если  ${\ displaystyle u}$  а также  ${\ displaystyle v}$  в разных поддеревьях  ${\ displaystyle T}$   ${\ displaystyle T \ получает T \ cup \ {(u, v) \}}$ вернуть T

Поддеревья ${\ displaystyle T}$ хранятся в структурах данных union-find , поэтому проверка того, находятся ли две вершины в одном поддереве, возможна в амортизированной ${\ Displaystyle О (\ альфа (т, п))}$ где ${\ Displaystyle \ альфа (м, п)}$ - обратная функция Аккермана . Таким образом, общее время выполнения алгоритма составляет ${\ Displaystyle О (сортировка (п) + \ альфа (п))}$ . Здесь ${\ Displaystyle \ альфа (п)}$ обозначает однозначную обратную функцию Аккермана, для которой любой реалистичный ввод дает целое число меньше пяти.

Подход 1: Распараллеливание этапа сортировки

Как и в алгоритме Прима, в подходе Крускала есть компоненты, которые нельзя распараллелить в его классическом варианте. Например, определение того, находятся ли две вершины в одном поддереве, трудно распараллелить, поскольку две операции объединения могут одновременно пытаться объединить одни и те же поддеревья. На самом деле единственная возможность распараллеливания - это этап сортировки. Поскольку в оптимальном случае сортировка линейна на ${\ Displaystyle О (\ журнал п)}$ процессоров, общее время работы можно сократить до ${\ Displaystyle О (м \ альфа (п))}$ .

Подход 2: Фильтр-Краскал

Другой подход - изменить исходный алгоритм, увеличив ${\ displaystyle T}$ более агрессивно. Эта идея была представлена Осиповым и соавт. ^[3]^[4] Основная идея Filter-Kruskal состоит в том, чтобы разделить ребра аналогично быстрой сортировке и отфильтровать ребра, которые соединяют вершины, принадлежащие одному дереву, чтобы снизить стоимость сортировки. Ниже представлено высокоуровневое представление псевдокода.

filterKruskal ( ${\ displaystyle G}$ ): если  ${\ displaystyle m <}$ KruskalThreshold: вернуть краскал ( ${\ displaystyle G}$ )pivot = chooseRandom ( ${\ displaystyle E}$ ) ${\ displaystyle (E _ {\ leq}}$ ,  ${\ displaystyle E _ {>}) \ получает}$ раздел ( ${\ displaystyle E}$ , вращаться) ${\ Displaystyle А \ получает}$  filterKruskal ( ${\ displaystyle E _ {\ leq}}$ ) ${\ Displaystyle E _ {>} \ получает}$  фильтр( ${\ displaystyle E _ {>}}$ ) ${\ displaystyle A \ получает A}$   ${\ Displaystyle \ чашка}$  filterKruskal ( ${\ displaystyle E _ {>}}$ ) возврат  ${\ displaystyle A}$ раздел ( ${\ displaystyle E}$ , вращаться): ${\ Displaystyle E _ {\ leq} \ получает \ emptyset}$   ${\ Displaystyle E _ {>} \ получает \ emptyset}$ для каждого  ${\ displaystyle (u, v) \ in E}$ : если вес ( ${\ displaystyle u, v}$ )  ${\ displaystyle \ leq}$  вращаться:  ${\ displaystyle E _ {\ leq} \ получает E _ {\ leq} \ cup {(u, v)}}$  еще  ${\ displaystyle E _ {>} \ получает E _ {>} \ cup {(u, v)}}$ возврат ( ${\ displaystyle E _ {\ leq}}$ ,  ${\ displaystyle E _ {>}}$ )фильтр( ${\ displaystyle E}$ ): ${\ Displaystyle E_ {отфильтрованный} \ получает \ emptyset}$ для каждого  ${\ displaystyle (u, v) \ in E}$ : if find-set (u) ${\ displaystyle \ neq}$  найти-набор (v):  ${\ displaystyle E_ {filter} \ получает E_ {filter} \ cup {(u, v)}}$ возвращаться  ${\ displaystyle E_ {filter}}$

Filter-Kruskal лучше подходит для распараллеливания, поскольку сортировка, разбиение и фильтрация имеют интуитивно простое распараллеливание, когда границы просто разделяются между ядрами.

Алгоритм Борувки

Основная идея алгоритма Борувки - сжатие ребер . Край ${\ Displaystyle \ {и, v \}}$ сокращается путем первого удаления ${\ displaystyle v}$ из графа, а затем перенаправляя каждое ребро ${\ displaystyle \ {w, v \} \ in E}$ к ${\ Displaystyle \ {ш, и \}}$ . Эти новые кромки сохраняют свой прежний вес. Если цель состоит не только в определении веса MST, но и в том, какие ребра он включает, необходимо отметить, между какими парами вершин было сжато ребро. Представление псевдокода высокого уровня представлено ниже.

 ${\ Displaystyle Т \ получает \ emptyset}$ пока  ${\ displaystyle | V |> 0}$   ${\ Displaystyle S \ получает \ emptyset}$  для  ${\ displaystyle v \ in V}$   ${\ displaystyle S \ получает S}$   ${\ Displaystyle \ чашка}$  самый легкий  ${\ Displaystyle \ {и, v \} \ в E}$  для  ${\ Displaystyle \ {и, v \} \ в S}$  договор  ${\ Displaystyle \ {и, v \}}$   ${\ displaystyle T \ получает T \ cup S}$ вернуть T

Возможно, что стягивания приводят к множеству ребер между парой вершин. Интуитивно понятный способ выбора самого легкого из них невозможен в ${\ Displaystyle О (м)}$ . Однако, если все сокращения, имеющие общую вершину, выполняются параллельно, это выполнимо. Рекурсия останавливается, когда остается только одна вершина, что означает, что алгоритму требуется не более ${\ displaystyle \ log n}$ итераций, что приводит к общему времени выполнения в ${\ Displaystyle О (м \ журнал п)}$ .

Распараллеливание

Одно возможное распараллеливание этого алгоритма ^[5]^[6]^[7] дает полилогарифмическую временную сложность, т.е. ${\ Displaystyle Т (т, п, р) \ CDOT р \ в О (м \ журнал п)}$ и существует постоянная ${\ displaystyle c}$ чтобы ${\ Displaystyle Т (т, п, р) \ в О (\ журнал ^ {с} м)}$ . Здесь ${\ Displaystyle Т (т, п, р)}$ обозначает время выполнения для графика с ${\ displaystyle m}$ края ${\ displaystyle n}$ вершины на машине с ${\ displaystyle p}$ процессоры. Основная идея заключается в следующем:

пока  ${\ displaystyle | V |> 1}$  найти самые светлые падающие ребра  ${\ Displaystyle О ({\ гидроразрыва {m} {p}} + \ log n + \ log p)}$  присвоить каждой вершине соответствующий подграф //  ${\ Displaystyle О ({\ гидроразрыва {п} {p}} + \ log п)}$  заключить контракт на каждый подграф //  ${\ Displaystyle О ({\ гидроразрыва {m} {p}} + \ log n)}$

Затем MST состоит из всех найденных самых светлых ребер.

Это распараллеливание использует представление графа массива смежности для ${\ Displaystyle G = (V, E)}$ . Он состоит из трех массивов - ${\ displaystyle \ Gamma}$ длины ${\ displaystyle n + 1}$ для вершин, ${\ displaystyle \ gamma}$ длины ${\ displaystyle m}$ для конечных точек каждого из ${\ displaystyle m}$ края и ${\ displaystyle c}$ длины ${\ displaystyle m}$ для веса кромок. Теперь о вершине ${\ displaystyle i}$ другой конец каждого края, инцидентный ${\ displaystyle i}$ можно найти в записях между ${\ Displaystyle \ гамма [\ Гамма [я-1]]}$ а также ${\ Displaystyle \ гамма [\ Гамма [я]]}$ . Вес ${\ displaystyle i}$ -я кромка в ${\ displaystyle \ Gamma}$ можно найти в ${\ Displaystyle с [я]}$ . Тогда ${\ displaystyle i}$ -я кромка в ${\ displaystyle \ gamma}$ находится между вершинами ${\ displaystyle u}$ а также ${\ displaystyle v}$ если и только если ${\ Displaystyle \ Гамма [и] \ Leq я <\ Гамма [и + 1]}$ а также ${\ Displaystyle \ гамма [я] = v}$ .

Поиск самого легкого края инцидента

Сначала края распределяются между каждым из ${\ displaystyle p}$ процессоры. В ${\ displaystyle i}$ -й процессор получает края, хранящиеся между ${\ displaystyle \ gamma [{\ frac {im} {p}}]}$ а также ${\ displaystyle \ gamma [{\ гидроразрыва {(я + 1) m} {p}} - 1]}$ . Кроме того, каждому процессору необходимо знать, какой вершине принадлежат эти ребра (поскольку ${\ displaystyle \ gamma}$ сохраняет только одну из конечных точек края) и сохраняет это в массиве ${\ displaystyle pred}$ . Получить эту информацию можно в ${\ Displaystyle О (\ журнал п)}$ с использованием ${\ displaystyle p}$ бинарный поиск или в ${\ Displaystyle О ({\ гидроразрыва {п} {р}} + р)}$ с помощью линейного поиска. На практике последний подход иногда оказывается быстрее, хотя асимптотически он хуже.

Теперь каждый процессор определяет самое светлое ребро, инцидентное каждой из его вершин.

 ${\ displaystyle v \ gets}$  найти( ${\ displaystyle {\ frac {im} {p}}}$ ,  ${\ displaystyle \ Gamma}$ ) для  ${\ displaystyle e \ gets {\ frac {im} {p}}; e <{\ frac {(i + 1) m} {p}} - 1; e ++}$  если  ${\ displaystyle \ Gamma [v + 1] = e}$   ${\ displaystyle v ++}$  если ${\ Displaystyle с [е] <с [пред [v]]}$   ${\ displaystyle pred [v] \ получает e}$

Здесь возникает проблема: некоторые вершины обрабатываются более чем одним процессором. Возможное решение этой проблемы состоит в том, что у каждого процессора есть свой собственный ${\ displaystyle prev}$ массив, который позже объединяется с другими, используя сокращение. Каждый процессор имеет не более двух вершин, которые также обрабатываются другими процессорами, и каждое сокращение выполняется за ${\ Displaystyle О (\ журнал р)}$ . Таким образом, общее время выполнения этого шага составляет ${\ Displaystyle О ({\ гидроразрыва {m} {p}} + \ log n + \ log p)}$ .

Назначение подграфов вершинам

Обратите внимание на граф, состоящий исключительно из ребер, собранных на предыдущем шаге. Эти ребра направлены от вершины, к которой они наиболее легкое инцидентное ребро. Полученный граф распадается на несколько слабосвязных компонент. Цель этого шага - присвоить каждой вершине компонент, частью которого она является. Обратите внимание, что каждая вершина имеет ровно одно исходящее ребро, и поэтому каждый компонент является псевдодеревом - деревом с единственным дополнительным ребром, которое проходит параллельно самому светлому ребру в компоненте, но в противоположном направлении. Следующий код преобразует это дополнительное ребро в цикл:

параллельно для всех  ${\ displaystyle v \ in V}$   ${\ displaystyle w \ получает пред [v]}$  если  ${\ Displaystyle пред [ш] = v \ земля v <ш}$   ${\ displaystyle pred [v] \ получает v}$

Теперь каждый компонент слабой связности представляет собой ориентированное дерево, корень которого имеет петлю . Этот корень выбран как представитель каждого компонента. Следующий код использует удвоение для присвоения каждой вершине своего представителя:

пока  ${\ Displaystyle \ существует v \ in V: пред [v] \ neq pred [пред [v]]}$  для всех  ${\ displaystyle v \ in V}$   ${\ displaystyle pred [v] \ получает pred [pred [v]]}$

Теперь каждый подграф - это звезда . С некоторыми продвинутыми техниками этот шаг требует ${\ Displaystyle О ({\ гидроразрыва {п} {p}} + \ log п)}$ время.

Сужение подграфов

На этом шаге каждый подграф сжимается до одной вершины.

 ${\ Displaystyle к \ получает}$  количество подграфов ${\ Displaystyle V '\ получает \ {0, \ точки, k-1 \}}$ найти биективную функцию  ${\ displaystyle f:}$  звездный корень  ${\ Displaystyle \ rightarrow \ {0, \ точки, k-1 \}}$   ${\ Displaystyle E '\ получает \ {(f (pred [v]), f (pred [w]), c, e_ {old}) :( v, w) \ in E \ land pred [v] \ neq пред [ш] \}}$

Найти биективную функцию можно в ${\ Displaystyle О ({\ гидроразрыва {п} {p}} + \ log p)}$ используя префиксную сумму. Поскольку теперь у нас есть новый набор вершин и ребер, массив смежности должен быть перестроен, что можно сделать с помощью Integerort на ${\ displaystyle E '}$ в ${\ Displaystyle О ({\ гидроразрыва {m} {p}} + \ log p)}$ время.

Сложность

Каждая итерация теперь требует ${\ Displaystyle О ({\ гидроразрыва {m} {p}} + \ log n)}$ времени и, как и в последовательном случае, есть ${\ displaystyle \ log n}$ взаимодействия, в результате чего общее время выполнения ${\ Displaystyle О (\ журнал п ({\ гидроразрыва {m} {p}} + \ журнал п))}$ . Если ${\ Displaystyle м \ в \ Омега (п \ log ^ {2} р)}$ эффективность алгоритма в ${\ Displaystyle \ Theta (1)}$ и это относительно эффективно. Если ${\ Displaystyle м \ в О (п)}$ тогда это абсолютно работоспособно.

Дальнейшие алгоритмы

Существует несколько других параллельных алгоритмов, которые решают проблему поиска MST. При линейном количестве процессоров этого можно добиться за ${\ Displaystyle О (\ журнал п)}$ . ^[8]^[9] Бадер и Конг представили MST-алгоритм, который был в пять раз быстрее на восьми ядрах, чем оптимальный последовательный алгоритм. ^[10]

Еще одна проблема - это модель внешней памяти - есть предложенный алгоритм Дементьева и др. который, как утверждается, всего в два-пять раз медленнее, чем алгоритм, использующий только внутреннюю память ^[11]