Случайное двоичное дерево

В информатике и теории вероятностей , случайная бинарное дерево представляет собой бинарное дерево выбирается случайным образом из некоторого распределения вероятностей на бинарных деревьев. Обычно используются два разных распределения: бинарные деревья, сформированные путем вставки узлов по одному в соответствии со случайной перестановкой , и бинарные деревья, выбранные из однородного дискретного распределения, в котором все различные деревья равновероятны. Также возможно сформировать другие распределения, например, путем многократного разбиения. Добавление и удаление узлов непосредственно в случайном двоичном дереве, как правило, нарушает его случайную структуру, но treapи связанные структуры данных рандомизированного двоичного дерева поиска используют принцип двоичных деревьев, сформированных из случайной перестановки, чтобы динамически поддерживать сбалансированное двоичное дерево поиска при вставке и удалении узлов.

Для случайных деревьев, которые не обязательно являются двоичными, см. Случайное дерево .

Бинарные деревья из случайных перестановок

Для любого набора чисел (или, в более общем смысле, значений из некоторого общего порядка ) можно сформировать двоичное дерево поиска, в котором каждое число вставляется последовательно как лист дерева без изменения структуры ранее вставленных чисел. Позиция, в которую должно быть вставлено каждое число, однозначно определяется двоичным поиском в дереве, образованном предыдущими числами. Например, если три числа (1,3,2) вставляются в дерево в этой последовательности, число 1 будет находиться в корне дерева, число 3 будет помещено в качестве его правого дочернего элемента, а число 2 как левый потомок числа 3. Существует шесть различных перестановок чисел (1,2,3), но из них можно построить только пять деревьев. Это потому, что перестановки (2,1,3) и (2,3,1) образуют одно и то же дерево.

Ожидаемая глубина узла

Для любого фиксированного выбора значения $x$ в заданном наборе из $n$ чисел, если один случайным образом переставляет числа и формирует из них двоичное дерево, как описано выше, ожидаемое значение длины пути от корня дерева до $x$ самое большее $2 лог п + O (1)$ , где « $журнал$ » означает натуральный логарифм функции и $O$ вводит большое обозначение вывода . Ибо ожидаемое количество предков $x$ по линейности ожидания равно сумме по всем другим значениям $y$ в наборе вероятности того, что $y$ является предком $x$ . И значение $y$ является предком $x$ именно тогда, когда $y$ является первым элементом, который нужно вставить из элементов в интервале $[x, y]$ . Таким образом, значения, смежные с $x$ в отсортированной последовательности значений, имеют вероятность $1/2$ того, что они являются предком $x$ , значения, расположенные на один шаг, имеют вероятность $1/3$ и т. Д. Сложение этих вероятностей для всех позиций в отсортированной последовательности дает удвоенное число гармоники , что приводит к приведенной выше оценке. Граница этой формы сохраняется также для ожидаемой длины поиска пути к фиксированному значению $x$ , которое не является частью данного набора. ^[1]

Самый длинный путь

Хотя анализировать не так просто, как среднюю длину пути, было проведено много исследований по определению математического ожидания (или границ высокой вероятности) длины самого длинного пути в двоичном дереве поиска, созданном на основе случайного порядка вставки. Теперь известно, что эта длина для дерева с $n$ узлами почти наверняка

{\ displaystyle {\ frac {1} {\ beta}} \ log n \ приблизительно 4,311 \ log n,}

где $β$ - единственное число в диапазоне $0 < β <1,$ удовлетворяющее уравнению

{\ displaystyle \ displaystyle 2 \ beta e ^ {1- \ beta} = 1.}

^[2]

Ожидаемое количество листьев

В модели случайной перестановки каждое из чисел из набора чисел, используемых для формирования дерева, за исключением наименьшего и наибольшего чисел, имеет вероятность $1/3$ быть листом в дереве, поскольку это лист, когда он вставлен после двух своих соседей и любой из шести перестановок этих двух соседей, и это одинаково вероятно. По аналогичным соображениям наименьшее и наибольшее из чисел имеют вероятность $1/2$ быть листом. Следовательно, ожидаемое количество листьев - это сумма этих вероятностей, которая для $n \geq 2$ составляет в точности $(n + 1) / 3$ .

Номер Strahler

Число Стрелера дерева является более чувствительной мерой расстояния от листа, на котором узел имеет номер Стрелера $i,$ если у него есть либо дочерний элемент с этим номером, либо два дочерних элемента с номером $i - 1$ . Для n- узловых случайных деревьев двоичного поиска моделирование предполагает, что ожидаемое число Стрелера равно ${\ Displaystyle \ журнал _ {3} п + о (\ журнал п)}$ . Однако только верхняя граница ${\ Displaystyle \ журнал _ {3} п + О (1)}$ действительно было доказано. ^[3]

Treaps и рандомизированные бинарные деревья поиска

В приложениях структур данных двоичного дерева поиска редко значения в дереве вставляются без удаления в случайном порядке, что ограничивает непосредственное применение случайных двоичных деревьев. Однако разработчики алгоритмов разработали структуры данных, которые позволяют выполнять вставки и удаления в двоичном дереве поиска, на каждом шаге сохраняя в качестве инварианта свойство, что форма дерева является случайной величиной с тем же распределением, что и случайный двоичный поиск. дерево.

Если данному набору упорядоченных чисел назначены числовые приоритеты (отдельные числа, не связанные с их значениями), эти приоритеты могут использоваться для построения декартова дерева для чисел, двоичного дерева, которое имеет в качестве своей последовательности обхода в порядке сортировки отсортированную последовательность чисел. и это упорядочено по приоритетам. Хотя известны более эффективные алгоритмы построения, полезно думать о декартовом дереве как о построенном путем вставки заданных чисел в двоичное дерево поиска в порядке приоритета. Таким образом, выбирая приоритеты либо как набор независимых случайных действительных чисел в единичном интервале, либо выбирая их как случайную перестановку чисел от $1$ до $n$ (где $n$ - количество узлов в дереве), и, поддерживая свойство упорядочивания кучи с использованием вращения дерева после любой вставки или удаления узла, можно поддерживать структуру данных, которая ведет себя как случайное двоичное дерево поиска. Такая структура данных известна как treap или рандомизированное двоичное дерево поиска. ^[4]

Равномерно случайные двоичные деревья

Количество двоичных деревьев с n узлами является каталонским числом : для $n = 1, 2, 3, ...$ эти числа деревьев равны

1, 2, 5, 14, 42, 132, 429, 1430, 4862, 16796,\dots

(последовательность A000108 в OEIS ).

Таким образом, если одно из этих деревьев выбрано равномерно случайным образом, его вероятность является обратной величиной каталонского числа. Деревья в этой модели имеют ожидаемую глубину, пропорциональную квадратному корню из $n$ , а не логарифму. ^[5] Однако ожидаемое число Стрелера для равномерно случайного двоичного дерева с n узлами равно ${\ Displaystyle \ журнал _ {4} п + О (1)}$ ^[6] ниже, чем ожидаемое число Стрелера для случайных деревьев двоичного поиска.

Из - за их больших высотах, эта модель равновероятных случайных деревьев обычно не используется для бинарных деревьев поиска, но она была применена к задачам моделирования деревьев разбора из алгебраических выражений в компиляторе конструкции ^[7] (где указанная выше , связанного на Число Стрелера переводится в количество регистров, необходимых для вычисления выражения ^[8] ) и для моделирования эволюционных деревьев . ^[9] В некоторых случаях анализ случайных бинарных деревьев в рамках модели случайной перестановки может быть автоматически перенесен в унифицированную модель. ^[10]

Случайное разделение деревьев

Devroye & Kruszewski (1996) генерируют случайные двоичные деревья с $n$ узлами, генерируя действительную случайную величину $x$ в единичном интервале $(0,1)$ , присваивая первые $xn$ узлов (с округлением до целого числа узлов) слева поддерево, следующий узел к корню и оставшиеся узлы к правому поддереву, и рекурсивно продолжается в каждом поддереве. Если $x$ выбирается равномерно случайным образом в интервале, результат будет таким же, как и случайное двоичное дерево поиска, сгенерированное случайной перестановкой узлов, поскольку любой узел с равной вероятностью будет выбран в качестве корня; однако эта формулировка позволяет использовать вместо этого другие дистрибутивы. Например, в модели равномерно случайного двоичного дерева после того, как корень зафиксирован, каждое из его двух поддеревьев также должно быть равномерно случайным, поэтому равномерно случайная модель также может быть сгенерирована с помощью другого выбора распределения для $x$ . Как показывают Деврой и Крушевски , выбирая бета-распределение по $x$ и используя соответствующий выбор формы для рисования каждой из ветвей, математические деревья, сгенерированные этим процессом, можно использовать для создания реалистичных ботанических деревьев.

Заметки

^ Хиббард (1962) ; Кнут (1973) ; Махмуд (1992) , стр. 75.
^ Робсон (1979) ; Питтель (1985) ; Деврой (1986) ; Махмуд (1992) , стр. 91–99; Рид (2003) .
^ Kruszewski (1999)
^ Мартинес и Роура (1998) ; Зайдель и Арагон (1996) .
↑ Knuth (2005) , стр. 15.
^ , Devroye & Kruszewski (1995)
↑ Махмуд (1992) , стр. 63.
^ Flajolet, Raoult & Vuillemin (1979) .
^ Олдос (1996) .
↑ Махмуд (1992) , стр. 70.

Внешние ссылки

Структуры открытых данных - Глава 7 - Случайные деревья двоичного поиска , Пат Морин

[1] Хиббард (1962) ; Кнут (1973) ; Махмуд (1992) , стр. 75.

[2] Робсон (1979) ; Питтель (1985) ; Деврой (1986) ; Махмуд (1992) , стр. 91–99; Рид (2003) .

[3] Kruszewski (1999)

[4] Мартинес и Роура (1998) ; Зайдель и Арагон (1996) .

[5] Knuth (2005) , стр. 15.

[6] , Devroye & Kruszewski (1995)

[7] Махмуд (1992) , стр. 63.

[8] Flajolet, Raoult & Vuillemin (1979) .

[9] Олдос (1996) .

[10] Махмуд (1992) , стр. 70.

[1]