Самобалансирующееся двоичное дерево поиска

Пример несбалансированного дерева; следование пути от корня к узлу занимает в среднем 3,27 обращений к узлу.

То же дерево после балансировки по высоте; среднее усилие на пути уменьшилось до 3,00 обращений к узлам

В информатике , самобалансировка (или высота сбалансировано ) бинарное дерево поиска является любым узел - бинарным дерево поиска , которая автоматически сохраняет свою высоту (максимальное число уровней ниже корня) малых в условиях произвольных вставок элементов и удалений. ^[1]

Эти структуры обеспечивают эффективные реализации изменяемых упорядоченных списков и могут использоваться для других абстрактных структур данных, таких как ассоциативные массивы , очереди и наборы приоритетов .

Красно-черное дерево , которое является типом самобалансирующегося бинарного дерева поиска, было названо симметричным бинарное B-дерево ^[2] и было переименовано , но все - таки можно спутать с родовым понятием самобалансирующегося бинарного дерева поиска , так как из инициалы.

Обзор

Вращения деревьев - это очень распространенные внутренние операции на самобалансирующихся двоичных деревьях для поддержания идеального или почти идеального баланса.

Большинство операций с двоичным деревом поиска (BST) занимают время, прямо пропорциональное высоте дерева, поэтому желательно, чтобы высота оставалась небольшой. Бинарное дерево с высотой h может содержать не более 2 ⁰ +2 ¹ + ... + 2 ^h = 2 ^{h +1} −1 узлов. Отсюда следует, что для любого дерева с n узлами и высотой h :

${\ Displaystyle п \ Leq 2 ^ {ч + 1} -1}$

А это подразумевает:

${\ displaystyle h \ geq \ lceil \ log _ {2} (n + 1) -1 \ rceil \ geq \ lfloor \ log _ {2} n \ rfloor}$ .

Другими словами, минимальная высота двоичного дерева с n узлами равна log ₂ ( n ) с округлением в меньшую сторону ; это, ${\ Displaystyle \ lfloor \ log _ {2} п \ rfloor}$ . ^[1]

Однако простейшие алгоритмы вставки элементов BST могут дать дерево с высотой n в довольно распространенных ситуациях. Например, когда элементы вставляются в отсортированном ключевом порядке, дерево вырождается в связанный список с n узлами. Разница в производительности между двумя ситуациями может быть огромной: например, при n = 1000000 минимальная высота составляет ${\ displaystyle \ lfloor \ log _ {2} (1 000 000) \ rfloor = 19}$ .

Если элементы данных известны заранее, высоту можно сохранить небольшой, в среднем смысле, путем добавления значений в случайном порядке, что приведет к случайному двоичному дереву поиска . Однако во многих ситуациях (например, в онлайн-алгоритмах ) такая рандомизация нецелесообразна.

Самобалансирующиеся двоичные деревья решают эту проблему, выполняя преобразования дерева (например, вращения дерева ) во время вставки ключей, чтобы сохранить высоту, пропорциональную log ₂ ( n ). Хотя это связано с определенными накладными расходами , в конечном итоге это может быть оправдано за счет обеспечения быстрого выполнения последующих операций.

Хотя возможно поддерживать BST с минимальной высотой с ожидаемым ${\ Displaystyle О (\ журнал п)}$ время операций (поиск / вставка / удаление), дополнительные требования к пространству, необходимые для поддержания такой структуры, имеют тенденцию перевешивать уменьшение времени поиска. Для сравнения: дерево AVL гарантированно находится в пределах 1,44 раз от оптимальной высоты, при этом для наивной реализации требуется только два дополнительных бита памяти. ^[1] Следовательно, большинство самобалансирующихся алгоритмов BST удерживают высоту в пределах постоянного множителя этой нижней границы.

В асимптотическом (« Big-O ») смысле самобалансирующаяся структура BST, содержащая n элементов, позволяет выполнять поиск, вставку и удаление элемента за время O (log n ) наихудшего случая и упорядоченное перечисление всех элементов в O ( n ) раз. Для некоторых реализаций это временные границы для каждой операции, в то время как для других они являются амортизированными границами для последовательности операций. Это время является асимптотически оптимальным среди всех структур данных, которые управляют ключом только посредством сравнений.

Реализации

Структуры данных, реализующие этот тип дерева, включают:

Приложения

Самобалансирующиеся деревья двоичного поиска могут использоваться естественным образом для создания и поддержки упорядоченных списков, таких как очереди приоритетов . Их также можно использовать для ассоциативных массивов ; Пары ключ-значение просто вставляются с упорядочением на основе одного ключа. В этом качестве самобалансирующиеся BST имеют ряд преимуществ и недостатков по сравнению с их основным конкурентом, хеш-таблицами . Одним из преимуществ самобалансирующихся BST является то, что они позволяют быстро (действительно, асимптотически оптимально) перечислять элементы в ключевом порядке., которые хеш-таблицы не предоставляют. Одним из недостатков является то, что их алгоритмы поиска усложняются, когда может быть несколько элементов с одним и тем же ключом. Самобалансирующиеся BST имеют лучшую производительность поиска в худшем случае, чем хэш-таблицы (O (log n) по сравнению с O (n)), но имеют худшую производительность в среднем случае (O (log n) по сравнению с O (1)).

Самобалансирующиеся BST могут использоваться для реализации любого алгоритма, требующего изменяемых упорядоченных списков, для достижения оптимальной асимптотической производительности в худшем случае. Например, если сортировка двоичного дерева реализована с помощью самоуравновешенного BST, у нас есть очень простой для описания, но асимптотически оптимальный алгоритм сортировки O ( n log n ). Точно так же многие алгоритмы вычислительной геометрии используют вариации самобалансирующихся BST для решения таких проблем, как проблема пересечения отрезков линии и определение местоположения точки.проблема эффективно. (Для среднего случая производительность, однако, самоуравновешенная BSTs может быть менее эффективной , чем другие решения. Бинарное дерево рода, в частности, скорее всего, будут медленнее , чем сортировка слияния , быстрая сортировки или пирамидальная сортировки , из - за дерево балансировки накладных расходов , как а также шаблоны доступа к кешу .)

Самобалансирующиеся BST - это гибкие структуры данных, которые легко расширять для эффективной записи дополнительной информации или выполнения новых операций. Например, можно записать количество узлов в каждом поддереве, имеющем определенное свойство, что позволяет подсчитать количество узлов в определенном ключевом диапазоне с этим свойством за время O (log n ). Эти расширения можно использовать, например, для оптимизации запросов к базе данных или других алгоритмов обработки списков.

См. Также

Структура данных поиска
Алгоритм Дэй – Стаута – Уоррена
Дерево слияния
Пропустить список
Сортировка

Ссылки

^ a b c Дональд Кнут . Искусство программирования , Том 3: Сортировка и поиск , второе издание. Аддисон-Уэсли, 1998. ISBN 0-201-89685-0 . Раздел 6.2.3: Сбалансированные деревья, стр. 458–481.
^ Пол Э. Блэк , «красно-черное дерево», в Словаре алгоритмов и структур данных [онлайн], Вреда Питерс и Пол Э. Блэк, ред. 13 апреля 2015 г. (по состоянию на 3 октября 2016 г.) Доступно по адресу : https://xlinux.nist.gov/dads/HTML/redblack.html

Внешние ссылки

Словарь алгоритмов и структур данных: сбалансированное по высоте двоичное дерево поиска
GNU libavl , библиотека реализаций двоичного дерева на C под лицензией LGPL, с документацией

[knuth-1] Дональд Кнут . Искусство программирования , Том 3: Сортировка и поиск , второе издание. Аддисон-Уэсли, 1998. ISBN 0-201-89685-0 . Раздел 6.2.3: Сбалансированные деревья, стр. 458–481.

[Pieterse-Black-2] Пол Э. Блэк , «красно-черное дерево», в Словаре алгоритмов и структур данных [онлайн], Вреда Питерс и Пол Э. Блэк, ред. 13 апреля 2015 г. (по состоянию на 3 октября 2016 г.) Доступно по адресу : https://xlinux.nist.gov/dads/HTML/redblack.html

[1]

vтеДревовидные структуры данных
Деревья поиска ( динамические наборы / ассоциативные массивы )	2–3 2–3–4 AA (а, б) AVL B B + B * B x ( Оптимальный ) Бинарный поиск Танцы HTree Интервал Статистика заказов ( Наклон влево ) Красный – черный Козел отпущения Splay Т Treap UB Сбалансированный по весу
Кучи	Двоичный Биномиальный Brodal Фибоначчи Левый Сопряжение Перекос ван Эмде Боас Слабый
Пытается	Ctrie C-trie (сжатый ADT) Хеш Radix Суффикс Тернарный поиск X-быстрый Y-быстро
Деревья разделения пространственных данных	Мяч BK BSP Декартово Гильберт Р k -d ( неявный k -d ) M Метрическая MVP Octree Приоритет R Quad р R + Р* Сегмент Вице-президент Икс
Другие деревья	Обложка Экспоненциальный Фенвик Палец Индекс фрактального дерева Слияние Хеш-календарь iDistance K-арый Левый ребенок правый брат Ссылка / вырезать Лог-структурированное слияние Меркл PQ Диапазон SPQR Вершина

vтеСтруктуры данных
Типы	Коллекция Контейнер
Абстрактный	Ассоциативный массив Multimap Список Куча Очередь Двусторонняя очередь Приоритетная очередь Двусторонняя приоритетная очередь Задавать Мультимножество Непересекающееся множество
Массивы	Битовый массив Круглый буфер Динамический массив Хеш-таблица Дерево хешированных массивов Разреженная матрица
Связано	Список ассоциаций Связанный список Пропустить список Развернутый связанный список Связанный список XOR
Деревья	B-дерево Дерево двоичного поиска Дерево AA Дерево AVL Красно-черное дерево Самобалансирующееся дерево Splay tree Куча Двоичная куча Биномиальная куча Куча Фибоначчи R-дерево R * дерево R + дерево R-дерево Гильберта Trie Хеш-дерево
Графики	Диаграмма двоичного решения Направленный ациклический граф Направленный ациклический граф слов
Список структур данных