М-дерево

Эта статья предоставляет недостаточный контекст для тех, кто не знаком с предметом . Пожалуйста, помогите улучшить статью , предоставив читателю больше контекста . ( Июнь 2010 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

M-деревья - это древовидные структуры данных , похожие на R-деревья и B-деревья . Он построен с использованием метрики и основан на неравенстве треугольника для запросов эффективного диапазона и k-ближайшего соседа (k-NN). Хотя M-деревья могут хорошо работать во многих условиях, дерево также может иметь большое перекрытие, и нет четкой стратегии, как лучше всего избежать перекрытия. Кроме того, его можно использовать только для функций расстояния, которые удовлетворяют неравенству треугольника, в то время как многие расширенные функции различия, используемые при поиске информации , не удовлетворяют этому. ^[1]

Обзор [ править ]

2D M-Tree, визуализированное с помощью ELKI . Из-за масштабов осей сферы выглядят эллипсоидальными. Каждая синяя сфера (лист) содержится в красной сфере (узлы каталога). Листья перекрывают друг друга, но не слишком сильно.

Как и любая древовидная структура данных, M-Tree состоит из узлов и листьев. В каждом узле есть объект данных, который однозначно его идентифицирует, и указатель на поддерево, в котором находятся его дочерние элементы. На каждом листе есть несколько объектов данных. Для каждого узла есть радиус , определяющий шар в желаемом метрическом пространстве. Таким образом, каждый узел и лист, находящиеся в конкретном узле, находятся на максимальном расстоянии от него , и каждый узел и лист с родительским узлом сохраняют расстояние от него. ${\ displaystyle r}$ ${\ displaystyle n}$ ${\ displaystyle l}$ ${\ displaystyle N}$ ${\ displaystyle r}$ ${\ displaystyle N}$ ${\ displaystyle n}$ ${\ displaystyle l}$ ${\ displaystyle N}$

Конструкция M-Tree [ править ]

Компоненты [ править ]

M-Tree состоит из следующих компонентов и подкомпонентов:

Нелистовые узлы
1. Набор объектов маршрутизации N _RO .
2. Указатель на родительский объект узла O _стр .
Листовые узлы
1. Набор объектов N _O .
2. Указатель на родительский объект узла O _стр .
Объект маршрутизации
1. (Значение функции) объект маршрутизации O _r .
2. Радиус покрытия r (O _r ).
3. Указатель на покрывающее дерево T (O _r ).
4. Расстояние O _r от его родительского объекта d (O _r , P (O _r ))
Объект
1. (Значение свойства) объекта O _j .
2. Идентификатор объекта oid (O _j ).
3. Расстояние O _j от его родительского объекта d (O _j , P (O _j ))

Вставить [ изменить ]

Основная идея заключается в первую найти лист узел $N$ , где новый объект $O$ принадлежит. Если $N$ не является полным , то просто прикрепить его к $N$ . Если $N$ полон затем вызвать метод для разделения $N$ . Алгоритм следующий:

Вставка алгоритма Вход: Узел  $N$  М-дерева  $MT$  , ввод ${\ displaystyle O_ {n}}$  вывод: новый экземпляр  $MT$  , содержащего все записи оригинального  $MT$  плюс ${\ displaystyle O_ {n}}$

  ${\ displaystyle N_ {e} \ получает N}$ объекты маршрутизации или объекты, если   $N$  не является листом, тогда { / * Ищем записи, в которые вписывается новый объект * / пусть будут объекты маршрутизации из набора объектов маршрутизации  $N_{in}$  $N_{e}$  $N_{RO}$  таким образом, что  $d(O_{r},O_{n})\leq r(O_{r})$  если не пусто, то $N_{in}$  { / * Если есть одна или несколько записей, ищите такую запись, которая ближе к новому объекту * /  $O_{r}^{*}\gets \min _{O_{r}\in N_{in}}d(O_{r},O_{n})$  } еще { / * Если такой записи нет, то ищем объект на минимальном расстоянии от * /  / * край радиуса покрытия нового объекта * /  $O_{r}^{*}\gets \min _{O_{r}\in N_{in}}d(O_{r},O_{n})-r(O_{r})$  / * Обновляем новые радиусы записи * /  $r(O_{r}^{*})\gets d(O_{r}^{*},O_{n})$  } / * Продолжаем вставку на следующем уровне * / return insert ( );  $T(O_{r}^{*}),O_{n}$  еще { / * Если узел имеет емкость, просто вставьте новый объект * / если   $N$  не заполнено, то { store ( ) $N,O_{n}$  } / * Узел загружен на полную мощность, тогда необходимо сделать новое разбиение на этом уровне * / еще { split ( ) $N,O_{n}$  } }

«←» обозначает присвоение . Например, « самый большой ← элемент » означает, что значение самого большого элемента изменяется на значение элемента .
« return » завершает алгоритм и выводит следующее значение.

Разделить [ править ]

Если метод разделения достигает корня дерева, он выбирает два объекта маршрутизации из $N$ и создает два новых узла, содержащих все объекты из исходного $N$ , и сохраняет их в новом корне. Если методы сплит поступает к узлу $N$ , который не является корнем дерева, метод выбора двух новых объектов маршрутизации из $N$ , повторно организовать каждый маршрутизации объекта в $N$ в двух новых узлов и , и хранить эти новые узлы родительского узла оригинального $N$ . Разделение необходимо повторить, если не хватает емкости для хранения . Алгоритм следующий: $N_{1}$ $N_{2}$ $N_{p}$ $N_{p}$ $N_{2}$

Алгоритм разделения Вход: узел  $N$  M-Tree  $MT$  , входной $O_{n}$  выход: новый экземпляр  $MT,$  содержащий новый раздел.

 / * Новые объекты маршрутизации теперь все те, что находятся в узле, плюс новый объект маршрутизации * / пусть будет  $NN$  записей, если  $N$  не является корнем, то $N\cup O$    { / * Получить родительский узел и родительский объект маршрутизации * / пусть будет родительским объектом маршрутизации  $N,$  $O_{p}$   пусть будет родительским узлом  $N$  $N_{p}$  } / * Этот узел будет содержать часть объектов разделяемого узла * / Создайте новый узел  $N '$  / * Продвигает два объекта маршрутизации из узла, который нужно разделить, в новые объекты маршрутизации * / Создавайте новые объекты и .  Продвигать ( ) $O_{p1}$  $O_{p2}$  $N,O_{p1},O_{p2}$  / * Выбираем, какие объекты из разделяемого узла будут действовать как новые объекты маршрутизации * / Раздел ( ) $N,O_{p1},O_{p2},N_{1},N_{2}$  / * Сохранение записей в каждом новом объекте маршрутизации * / Сохранять записи в  $N$  и записи в  $N,$  $N_{1}$  $N_{2}$   если   $N$  - текущий корень, тогда { / * Создаем новый узел и устанавливаем его как новый корень и сохраняем новые объекты маршрутизации * / Создайте новый корневой узел  $N_{p}$  Store и в $O_{p1}$  $O_{p2}$  $N_{p}$  } еще { / * Теперь используем родительский объект маршрутизации для хранения одного из новых объектов * / Замените запись на запись в,  $O_{p}$  $O_{p1}$  $N_{p}$  если она не заполнена, то $N_{p}$  { / * Второй объект маршрутизации сохраняется в родительском только в том случае, если у него есть свободная емкость * / Хранить в $O_{p2}$  $N_{p}$  } еще { / * Если нет свободной емкости, разделите уровень вверх * / разделить ( ) $N_{p},O_{p2}$  } }

«←» обозначает присвоение . Например, « самый большой ← элемент » означает, что значение самого большого элемента изменяется на значение элемента .
« return » завершает алгоритм и выводит следующее значение.

Запросы M-Tree [ править ]

Запрос диапазона [ править ]

В запросе диапазона указывается минимальное значение сходства / максимального расстояния. Для данного объекта запроса и максимального расстояния поиска диапазон запроса диапазона (Q, r (Q)) выбирает все проиндексированные объекты таким образом, что . ^[2] $Q\in D$ $r(Q)$ $O_{j}$ $d(O_{j},Q)\leq r(Q)$

Алгоритм RangeSearch начинается с корневого узла и рекурсивно просматривает все пути, которые не могут быть исключены из ведущих к квалифицируемым объектам.

Алгоритм RangeSearchВход: узел  $N$  M-Tree MT,  $Q$  : объект запроса,: радиус поиска $r(Q)$

Вывод: все объекты БД, такие что $d(Oj,Q)\leq r(Q)$

{ пусть  будет родительским объектом узла  $N$  ; $O_{p}$   если   $N$  не является листом, то { для каждой  записи ( ) в  $N$  $O_{r}$    выполните { if  $|d(O_{p},Q)-d(O_{r},O_{p})|\leq r(Q)+r(O_{r})$   then { Вычислить ;  $d(O_{r},Q)$  если  $d(O_{r},Q)\leq r(Q)+r(O_{r})$   тогда  RangeSearch (* ptr ( )),  $Q$  , ); $T(O_{r}$  $r(Q)$   } } } else { для каждой  записи ( ) в  $N$  $O_{j}$    do { if  $|d(O_{p},Q)-d(O_{j},O_{p})|\leq r(Q)$   then { Compute ;  $d(O_{j},Q)$  если ≤,  $d(O_{j},Q)$  $r(Q)$  то  прибавить к результату; $oid(O_{j})$  } } }}

«←» обозначает присвоение . Например, « самый большой ← элемент » означает, что значение самого большого элемента изменяется на значение элемента .
« return » завершает алгоритм и выводит следующее значение.

$oid(O_{j})$ это идентификатор объекта, который находится в отдельном файле данных.
$T(O_{r})$ поддерево - покрывающее дерево $O_{r}$

k-NN запросы [ править ]

Запрос K Nearest Neighbor (k-NN) принимает мощность входного набора в качестве входного параметра. Для заданного объекта запроса Q ∈ D и целого числа k ≥ 1 запрос NN (Q, k) k-NN выбирает k индексированных объектов, которые находятся на кратчайшем расстоянии от Q в соответствии с функцией расстояния d.^[2]

См. Также [ править ]

Сегментное дерево
Дерево интервалов - вырожденное R-дерево для одного измерения (обычно времени).
Иерархия ограничивающего объема
Пространственный индекс
Суть

Ссылки [ править ]

^ Чаччиа, Паоло; Пателла, Марко; Зезула, Павел (1997). «M-tree - эффективный метод доступа для поиска сходства в метрических пространствах» (PDF) . Материалы 23-й конференции VLDB Афины, Греция, 1997 . Исследовательский центр IBM Almaden: Фонд очень больших баз данных, Inc., стр. 426–435. p426 . Проверено 7 сентября 2010 .
^ а б П. Чачча; М. Пателла; Ф. Рабитти; П. Зезула. «Индексирование метрических пространств с помощью M-дерева» (PDF) . Департамент компьютерных наук и инженерии . Болонский университет. п. 3 . Проверено 19 ноября 2013 года .

[p426-1] Чаччиа, Паоло; Пателла, Марко; Зезула, Павел (1997). «M-tree - эффективный метод доступа для поиска сходства в метрических пространствах» (PDF) . Материалы 23-й конференции VLDB Афины, Греция, 1997 . Исследовательский центр IBM Almaden: Фонд очень больших баз данных, Inc., стр. 426–435. p426 . Проверено 7 сентября 2010 .

[Univ_Bologna_Range-2] а б П. Чачча; М. Пателла; Ф. Рабитти; П. Зезула. «Индексирование метрических пространств с помощью M-дерева» (PDF) . Департамент компьютерных наук и инженерии . Болонский университет. п. 3 . Проверено 19 ноября 2013 года .

[1]

vтеДревовидные структуры данных
Деревья поиска ( динамические наборы / ассоциативные массивы )	2–3 2–3–4 AA (а, б) AVL B B + B * B x ( Оптимальный ) Двоичный поиск Танцы HTree Интервал Статистика заказов ( Наклон влево ) Красный – черный Козел отпущения Splay Т Treap UB Сбалансированный по весу
Кучи	Двоичный Биномиальный Brodal Фибоначчи Левый Сопряжение Перекос ван Эмде Боас Слабый
Пытается	Ctrie C-trie (сжатый ADT) Хеш Radix Суффикс Тернарный поиск X-быстрый Y-быстро
Деревья разделения пространственных данных	Мяч BK BSP Декартово Гильберт Р k -d ( неявный k -d ) M Метрическая MVP Octree Приоритет R Quad р R + Р* Сегмент Вице-президент Икс
Другие деревья	Крышка Экспоненциальный Фенвик Палец Индекс фрактального дерева Слияние Хеш-календарь iDistance K-арый Левый ребенок правый брат Ссылка / вырезать Лог-структурированное слияние Меркл PQ Классифицировать SPQR верхний