Алгоритм Хопкрофта-Карпа

В информатике , то алгоритм Хопкрофт-Карп (иногда более точно называют алгоритм Хопкрофт-Карп-Карзан ) ^[1] представляет собой алгоритм , который принимает в качестве входного двудольного графа и производит в качестве выходного сигнала с максимальным согласованием числа элементов - это набор , как много кромок насколько это возможно, с тем свойством, что никакие два ребра не имеют общей конечной точки. Он работает в ${\ displaystyle O (| E | {\ sqrt {| V |}})}$ время в худшем случае , когда ${\ displaystyle E}$ - множество ребер в графе, ${\ displaystyle V}$ - множество вершин графа, и предполагается, что ${\ Displaystyle | E | = \ Omega (| V |)}$ . В случае плотных графов временная граница становится ${\ Displaystyle O (| V | ^ {2.5})}$ , а для разреженных случайных графов он выполняется во времени ${\ Displaystyle О (| Е | \ журнал | V |)}$ с большой вероятностью. ^[2]

Алгоритм Хопкрофта – Карпа
Класс	Алгоритм графа
Структура данных	График
Наихудшая производительность	${\ displaystyle O (E {\ sqrt {V}})}$
Сложность пространства в наихудшем случае	${\ Displaystyle O (V)}$

Алгоритм был найден Джоном Хопкрофтом и Ричардом Карпом ( 1973 ) и независимо Александром Карзановым ( 1973 ). ^[3] Как и в предыдущих методах сопоставления, таких как венгерский алгоритм и работа Эдмондса (1965) , алгоритм Хопкрофта-Карпа многократно увеличивает размер частичного сопоставления путем поиска дополнительных путей . Эти пути представляют собой последовательности ребер графа, которые чередуются между ребрами в сопоставлении и ребрами из частичного сопоставления, и где начальное и конечное ребро не входят в частичное сопоставление. Нахождение увеличивающего пути позволяет нам увеличивать размер частичного совпадения, просто переключая края увеличивающего пути (вставляя частичное совпадение с теми, которые не были, и наоборот). Более простые алгоритмы для двустороннего сопоставления, такие как алгоритм Форда – Фулкерсона ‚находят один увеличивающий путь за итерацию: алгоритм Хопкрофта-Карпа вместо этого находит максимальный набор кратчайших увеличивающих путей, чтобы гарантировать, что только ${\ displaystyle O ({\ sqrt {| V |}})}$ необходимы итерации вместо ${\ Displaystyle O (V)}$ итераций. Такое же исполнение ${\ displaystyle O (| E | {\ sqrt {| V |}})}$ может быть достигнуто для поиска совпадений максимальной мощности в произвольных графах с помощью более сложного алгоритма Микали и Вазирани. ^[4]

Алгоритм Хопкрофта – Карпа можно рассматривать как частный случай алгоритма Динича для задачи о максимальном потоке . ^[5]

Расширение путей

Вершина, которая не является конечной точкой ребра в некотором частичном совпадении ${\ displaystyle M}$ называется свободной вершиной . Основная концепция, на которую опирается алгоритм, - это дополняющий путь , путь, который начинается в свободной вершине, заканчивается в свободной вершине и чередуется между несовпадающими и согласованными ребрами в пределах пути. Из этого определения следует, что, за исключением конечных точек, все другие вершины (если есть) в увеличивающем пути должны быть несвободными вершинами. Расширяющий путь может состоять только из двух вершин (обе свободные) и единственного несовпадающего ребра между ними.

Если ${\ displaystyle M}$ соответствует, и ${\ displaystyle P}$ является дополнительным путем относительно ${\ displaystyle M}$ , то симметричная разность двух наборов ребер, ${\ Displaystyle M \ oplus P}$ , будет соответствовать размеру ${\ displaystyle | M | +1}$ . Таким образом, найдя дополнительные пути, алгоритм может увеличить размер сопоставления.

Наоборот, предположим, что соответствие ${\ displaystyle M}$ не оптимально, и пусть ${\ displaystyle P}$ быть симметричной разностью ${\ Displaystyle M \ oplus M ^ {*}}$ где ${\ displaystyle M ^ {*}}$ оптимальное соответствие. Так как ${\ displaystyle M}$ а также ${\ displaystyle M ^ {*}}$ являются паросочетаниями, каждая вершина имеет степень не выше 2 в ${\ displaystyle P}$ . Так ${\ displaystyle P}$ должны образовывать набор непересекающихся циклов путей с равным количеством совпадающих и несовпадающих ребер в ${\ displaystyle M}$ , дополнительных путей для ${\ displaystyle M}$ , и дополнительных путей для ${\ displaystyle M ^ {*}}$ ; но последнее невозможно, потому что ${\ displaystyle M ^ {*}}$ оптимально. Теперь циклы и пути с равным количеством совпавших и несовпадающих вершин не влияют на разницу в размере между ${\ displaystyle M}$ а также ${\ displaystyle M ^ {*}}$ , поэтому эта разница равна количеству дополнительных путей для ${\ displaystyle M}$ в ${\ displaystyle P}$ . Таким образом, всякий раз, когда существует соответствие ${\ displaystyle M ^ {*}}$ больше, чем текущее соответствие ${\ displaystyle M}$ , также должен существовать дополнительный путь. Если не удается найти расширяющий путь, алгоритм может безопасно завершиться, поскольку в этом случае ${\ displaystyle M}$ должен быть оптимальным.

Расширяющий путь в задаче согласования тесно связан с увеличивающими путями, возникающими в задачах максимального потока , путями, вдоль которых можно увеличить количество потока между терминалами потока. Можно преобразовать задачу двустороннего согласования в пример максимального потока, так что чередующиеся пути задачи согласования становятся дополнительными путями проблемы потока. Достаточно вставить две вершины, источник и сток, и вставить ребра единичной мощности от источника до каждой вершины в ${\ displaystyle U}$ , и из каждой вершины в ${\ displaystyle V}$ к раковине; и пусть края от ${\ displaystyle U}$ к ${\ displaystyle V}$ имеют единицу мощности. ^[6] Обобщение техники, используемой в алгоритме Хопкрофта – Карпа для поиска максимального потока в произвольной сети, известно как алгоритм Динича .

Алгоритм

Алгоритм может быть выражен в следующем псевдокоде .

Вход : двудольный граф.

{\ Displaystyle G (U \ чашка V, E)}

Выход : Соответствие

{\ Displaystyle M \ substeq E}

{\ Displaystyle M \ leftarrow \ emptyset}

повторить

{\ Displaystyle {\ mathcal {P}} \ leftarrow \ {P_ {1}, P_ {2}, \ dots, P_ {k} \}}

максимальный набор непересекающихся по вершинам кратчайших дополняющих путей

{\ Displaystyle M \ leftarrow M \ oplus (P_ {1} \ чашка P_ {2} \ чашка \ точки \ чашка P_ {k})}

до того как

{\ Displaystyle {\ mathcal {P}} = \ emptyset}

Более подробно пусть ${\ displaystyle U}$ а также ${\ displaystyle V}$ - два множества в двудольном ${\ displaystyle G}$ , и пусть совпадение из ${\ displaystyle U}$ к ${\ displaystyle V}$ в любой момент можно представить как набор ${\ displaystyle M}$ . Алгоритм выполняется поэтапно. Каждый этап состоит из следующих шагов.

Поиск в ширину разделяет вершины графа в слои. Свободные вершины в ${\ displaystyle U}$ используются как начальные вершины этого поиска и образуют первый слой разбиения. На первом уровне поиска есть только несовпадающие ребра, так как свободные вершины в ${\ displaystyle U}$ по определению не примыкают ни к каким согласованным ребрам. На последующих уровнях поиска пройденные кромки должны чередоваться между совпадающими и несогласованными. То есть при поиске наследников из вершины в ${\ displaystyle U}$ , могут быть пересечены только несовпадающие ребра, а из вершины в ${\ displaystyle V}$ могут быть пересечены только совпадающие кромки. Поиск заканчивается на первом слое. ${\ displaystyle k}$ где одна или несколько свободных вершин в ${\ displaystyle V}$ достигнуты.
Все свободные вершины в ${\ displaystyle V}$ на слое ${\ displaystyle k}$ собраны в набор ${\ displaystyle F}$ . То есть вершина ${\ displaystyle v}$ помещается в ${\ displaystyle F}$ тогда и только тогда, когда он заканчивается кратчайшим путем увеличения.
Алгоритм находит максимальный набор вершинных непересекающихся увеличивающих путей длины ${\ displaystyle k}$ . ( Максимальный означает, что такие пути больше не могут быть добавлены. Это отличается от поиска максимального количества таких путей, что было бы труднее сделать. К счастью, здесь достаточно найти максимальный набор путей.) Этот набор может быть вычисляется методом поиска в глубину (DFS) из ${\ displaystyle F}$ к свободным вершинам в ${\ displaystyle U}$ , используя слои в ширину для направления поиска: DFS разрешено следовать только за ребрами, которые ведут к неиспользуемой вершине на предыдущем уровне, а пути в дереве DFS должны чередоваться между совпадающими и несовпадающими ребрами. Как только будет найден дополнительный путь, включающий одну из вершин в ${\ displaystyle F}$ , ДФС продолжается со следующей стартовой вершины. Любая вершина, обнаруженная во время DFS, может быть немедленно помечена как использованная, поскольку, если от нее нет пути к ${\ displaystyle U}$ в текущей точке DFS, то эту вершину нельзя использовать для достижения ${\ displaystyle U}$ в любой другой точке DFS. Это гарантирует ${\ Displaystyle O (| E |)}$ время работы DFS. Также можно работать в обратном направлении, от свободных вершин в ${\ displaystyle U}$ тем, кто в ${\ displaystyle V}$ , который является вариантом, используемым в псевдокоде.
Каждый из найденных таким образом путей используется для увеличения ${\ displaystyle M}$ .

Алгоритм завершается, когда в первой в ширину части поиска одной из фаз не обнаруживаются дополнительные пути.

Анализ

Каждая фаза состоит из одного поиска в ширину и одного поиска в глубину. Таким образом, одна фаза может быть реализована в ${\ Displaystyle O (| E |)}$ время. Поэтому первый ${\ displaystyle {\ sqrt {| V |}}}$ фаз, на графике с ${\ displaystyle | V |}$ вершины и ${\ displaystyle | E |}$ края, не торопитесь ${\ displaystyle O (| E | {\ sqrt {| V |}})}$ .

Каждая фаза увеличивает длину кратчайшего пути увеличения по крайней мере на один: фаза находит максимальный набор путей увеличения заданной длины, поэтому любой оставшийся путь увеличения должен быть длиннее. Поэтому, как только начальный ${\ displaystyle {\ sqrt {| V |}}}$ фазы алгоритма завершены, самый короткий оставшийся путь дополнения имеет не менее ${\ displaystyle {\ sqrt {| V |}}}$ края в нем. Однако симметричная разность окончательного оптимального согласования и частичного согласования M, найденного на начальных этапах, образует совокупность непересекающихся по вершинам дополняющих путей и чередующихся циклов. Если каждый из путей в этой коллекции имеет длину не менее ${\ displaystyle {\ sqrt {| V |}}}$ , может быть не больше ${\ displaystyle {\ sqrt {| V |}}}$ путей в коллекции, а размер оптимального соответствия может отличаться от размера ${\ displaystyle M}$ самое большее ${\ displaystyle {\ sqrt {| V |}}}$ края. Поскольку каждая фаза алгоритма увеличивает размер сопоставления по крайней мере на один, может быть не более ${\ displaystyle {\ sqrt {| V |}}}$ дополнительные фазы перед завершением алгоритма.

Поскольку алгоритм выполняет в общей сложности не более ${\ displaystyle 2 {\ sqrt {| V |}}}$ фаз, это занимает общее время ${\ displaystyle O (| E | {\ sqrt {| V |}})}$ в худшем случае.

Однако во многих случаях время, затрачиваемое алгоритмом, может быть даже быстрее, чем показывает анализ наихудшего случая. Так , например, в среднем случае для разреженных двудольных случайных графов , Баст и др. (2006) (улучшая предыдущий результат Motwani 1994 ) показали, что с высокой вероятностью все неоптимальные сопоставления имеют увеличивающиеся пути логарифмической длины. Как следствие, для этих графов алгоритм Хопкрофта – Карпа принимает ${\ Displaystyle О (\ журнал | V |)}$ фазы и ${\ Displaystyle О (| Е | \ журнал | V |)}$ общее время.

Сравнение с другими алгоритмами двудольного сопоставления

Для разреженных графов алгоритм Хопкрофта – Карпа по-прежнему имеет наиболее известную производительность в худшем случае, но для плотных графов ( ${\ Displaystyle | E | = \ Omega (| V | ^ {2})}$ ) более поздний алгоритм Alt et al. (1991) достигает немного лучших временных рамок, ${\ displaystyle O \ left (| V | ^ {1.5} {\ sqrt {\ frac {| E |} {\ log | V |}}} \ right)}$ . Их алгоритм основан на использовании алгоритма максимального потока push-relabel, а затем, когда соответствие, созданное этим алгоритмом, становится близким к оптимальному, переключение на метод Хопкрофта – Карпа.

Несколько авторов выполнили экспериментальные сравнения алгоритмов двустороннего сопоставления. Их результаты в целом, как правило, показывают, что метод Хопкрофта – Карпа на практике не так хорош, как в теории: он уступает как более простым стратегиям поиска в ширину и в глубину для поиска дополнительных путей, так и методам push-relabel. . ^[7]

Недвудольные графы

Та же самая идея поиска максимального набора кратчайших увеличивающих путей работает также для поиска совпадений максимальной мощности в недвудольных графах, и по тем же причинам алгоритмы, основанные на этой идее, принимают ${\ displaystyle O ({\ sqrt {| V |}})}$ фазы. Однако для недвудольных графов задача поиска увеличивающих путей внутри каждой фазы является более сложной. Основываясь на работе нескольких более медленных предшественников, Микали и Вазирани (1980) показали, как реализовать фазу за линейное время, что привело к недвудольному алгоритму сопоставления с той же временной границей, что и алгоритм Хопкрофта – Карпа для двудольных графов. Методика Микали – Вазирани сложна, и ее авторы не предоставили полных доказательств своих результатов; впоследствии Peterson & Loui (1988) опубликовали «ясное изложение». harvtxt error: множественные цели (2 ×): CITEREFPetersonLoui1988 ( справка ), а альтернативные методы были описаны другими авторами. ^[8] В 2012 году Вазирани предложил новое упрощенное доказательство алгоритма Микали-Вазирани. ^[9]

Псевдокод

/ *  G = U ∪ V ∪ {NIL} где U и V - левая и правая части двудольного графа, а NIL - специальная нулевая вершина* / функция BFS () предназначена  для каждого u в U ,  если Pair_U [u] = NIL, то Расстояние [u]: = 0 Поставить в очередь (Q, u) еще Расстояние [u]: = ∞ Расстояние [NIL]: = ∞ в то время как Empty (Q) = false делать u: = Удалить из очереди (Q) если Dist [u] то  для каждого v в Adj [u] выполнить,  если Dist [Pair_V [v]] = ∞, то Расст. [Pair_V [v]]: = Расст. [U] + 1 Поставить в очередь (Q, Pair_V [v]) return Dist [NIL] ≠ ∞функция DFS (u) имеет вид,  если u ≠ NIL, тогда  для каждого v в Adj [u] do,  если Dist [Pair_V [v]] = Dist [u] + 1, то  если DFS (Pair_V [v]) = true, то Pair_V [v]: = u Pair_U [u]: = v вернуть истину Расстояние [u]: = ∞ вернуть ложь вернуть истинуФункция Hopcroft-Карп является  для каждого U в U делать Pair_U [u]: = NIL для каждого v в V делаем Pair_V [v]: = NIL соответствие: = 0 в то время как BFS () = true делать  для каждого u в U делать,  если Pair_U [u] = NIL, тогда  если DFS (u) = true, то соответствие: = соответствие + 1 вернуть соответствие

Выполнение на примере графа, показывающего входной граф и сопоставление после промежуточной итерации 1 и последней итерации 2.

Объяснение

Пусть вершины нашего графа разделены на U и V, и рассмотрим частичное совпадение, как указано в таблицах Pair_U и Pair_V, которые содержат одну вершину, с которой сопоставляется каждая вершина U и V, или NIL для несовпадающих вершин. Ключевая идея состоит в том, чтобы добавить две фиктивные вершины с каждой стороны графа: uDummy, подключенный ко всем несовпадающим вершинам в U, и vDummy, подключенный ко всем несовпадающим вершинам в V. Теперь, если мы запустим поиск в ширину (BFS) от uDummy до vDummy, тогда мы можем получить пути минимальной длины, которые соединяют в настоящее время несовпадающие вершины в U с несогласованными в настоящее время вершинами в V. Обратите внимание, что, поскольку граф является двудольным, эти пути всегда чередуются между вершинами в U и вершинами в V, и нам требуется наша BFS, что при переходе от V к U мы всегда выбираем совпадающую кромку. Если мы достигаем несовпадающей вершины V, то мы заканчиваем на vDummy, и поиск путей в BFS прекращается. Подводя итог, BFS начинается с несовпадающих вершин в U, переходит ко всем их соседям в V, если все совпадают, то он возвращается к вершинам в U, которым сопоставлены все эти вершины (и которые не были посещены ранее), затем он переходит ко всем соседям этих вершин и т. д., пока одна из вершин, достигнутая в V, не станет несовместимой.

Обратите внимание, в частности, что BFS отмечает несогласованные узлы U с расстоянием 0, затем увеличивает расстояние каждый раз, когда он возвращается к U. Это гарантирует, что пути, рассматриваемые в BFS, имеют минимальную длину для соединения несовпадающих вершин U с несовпадающими вершинами V, всегда возвращаясь от V к U на ребрах, которые в настоящее время являются частью соответствия. В частности, специальной вершине NIL, которая соответствует vDummy, затем назначается конечное расстояние, поэтому функция BFS возвращает истину, если был найден какой-то путь. Если путь не найден, значит, дополнительных путей не осталось и соответствие максимальное.

Если BFS возвращает истину, мы можем продолжить и обновить пары для вершин на путях минимальной длины, найденных от U до V: мы делаем это, используя поиск в глубину (DFS). Обратите внимание, что каждая вершина в V на таком пути, кроме последней, в настоящее время сопоставляется. Таким образом, мы можем исследовать с помощью DFS, убедившись, что пути, по которым мы идем, соответствуют расстояниям, вычисленным в BFS. Мы обновляем вдоль каждого такого пути, удаляя из сопоставления все ребра пути, которые в настоящее время находятся в сопоставлении, и добавляя к сопоставлению все кромки пути, которые в настоящее время не находятся в сопоставлении: так как это дополняющий путь (первый и последние кромки пути не были частью сопоставления, и путь чередовался между сопоставленными и несовпадающими кромками), то это увеличивает количество кромок в сопоставлении. Это то же самое, что заменить текущее совпадение симметричной разницей между текущим совпадением и всем путем.

Обратите внимание, что код гарантирует, что все рассматриваемые дополняющие пути не пересекаются по вершинам. Действительно, после выполнения симметричной разницы для пути ни одна из его вершин не может быть снова рассмотрена в DFS только потому, что Dist [Pair_V [v]] не будет равно Dist [u] + 1 (это будет в точности Dist [u]).

Также обратите внимание, что DFS не посещает одну и ту же вершину несколько раз. Это благодаря следующим строчкам:

Расстояние [u] = ∞вернуть ложь

Когда нам не удалось найти какой-либо кратчайший увеличивающий путь из вершины u, тогда DFS помечает вершину u, устанавливая Dist [u] равным бесконечности, чтобы эти вершины больше не посещались.

И последнее наблюдение: на самом деле uDummy нам не нужен: его роль просто помещать все несовпадающие вершины U в очередь, когда мы запускаем BFS. Что касается vDummy, в псевдокоде выше он обозначен как NIL.

Смотрите также

Соответствие максимальной мощности , проблема, решаемая алгоритмом, и ее обобщение на недвудольные графы
Задача присваивания , обобщение этой проблемы на взвешенных графах , решаемая, например, с помощью венгерского алгоритма.
Алгоритм Эдмондса – Карпа для поиска максимального потока, обобщение алгоритма Хопкрофта – Карпа

Заметки

^ Габоу (2017) ; Аннамалай (2018)
^ Баст и др. (2006) .
^ Диниц (2006) .
^ Петерсон, Пол А .; Луи, Майкл К. (1988-11-01). «Общий алгоритм максимального соответствия Микали и Вазирани». Алгоритмика . 3 (1): 511–533. DOI : 10.1007 / BF01762129 . ISSN 1432-0541 . S2CID 16820 .
^ Тарджан, Роберт Эндре (1983-01-01). Структуры данных и сетевые алгоритмы . CBMS-NSF Серия региональных конференций по прикладной математике. Общество промышленной и прикладной математики. DOI : 10.1137 / 1.9781611970265 . ISBN 978-0-89871-187-5., стр.102
^ Ахадж, Magnanti & Орлин (1993) , раздел 12.3, двудольная проблема соответствия кардинального, стр. 469-470.
^ Чанг и Маккормик (1990) ; Дарби-Доуман (1980) ; Сетубал (1993) ; Сетубал (1996) .
^ Gabow & Тарьян (1991) .
^ Вазирани (2012)