Динамическое идеальное хеширование

В информатике , динамический совершенный хеширования является метод программирования для разрешения коллизий в хэш - таблице структуры данных . ^[1]^[2]^[3] Хотя этот метод потребляет больше памяти, чем его аналоги в хэш-таблицах, ^{[ необходима цитата ]} , он полезен в ситуациях, когда быстрые запросы, вставки и удаления должны выполняться для большого набора элементов.

Подробности

Статический случай

Схема FKS

Проблема оптимального статического хеширования впервые была решена Фредманом, Комлосом и Семереди. ^[4] В своей статье 1984 года ^[1] они подробно описывают схему двухуровневой хеш-таблицы, в которой каждый сегмент хеш-таблицы (первого уровня) соответствует отдельной хеш-таблице второго уровня. Ключи хешируются дважды - первое значение хеш-функции соответствует определенному сегменту в хеш-таблице первого уровня; второе значение хеш-функции дает позицию этой записи в хеш-таблице второго уровня этого сегмента. При построении таблицы второго уровня гарантируется отсутствие конфликтов (т.е. идеальное хеширование ). Следовательно, в худшем случае стоимость поиска гарантированно будет равна O (1) . ^[2]

В статическом случае нам заранее дается набор из x записей, каждая из которых имеет уникальный ключ. Фредман, Комлос и Семереди выбирают хеш-таблицу первого уровня с размером s = 2 (x-1) ведра. ^[2]

Для построения x записей разделяются на s сегментов функцией хеширования верхнего уровня, где s = 2 (x-1) . Затем для каждого сегмента с k записями таблица второго уровня выделяется с k ² слотами, и ее хеш-функция выбирается случайным образом из универсального набора хеш-функций, так что она не имеет коллизий (то есть идеальная хеш-функция ) и сохраняется рядом с хеш-таблицей. Если случайно выбранная хеш-функция создает таблицу с коллизиями, новая хеш-функция выбирается случайным образом до тех пор, пока не будет гарантирована таблица без коллизий. Наконец, с помощью хэша без конфликтов k записей хешируются в таблицу второго уровня.

Квадратичный размер пространства k ² гарантирует, что случайное создание таблицы с коллизиями происходит нечасто и не зависит от размера k , обеспечивая линейное амортизированное время построения. Хотя каждая таблица второго уровня требует квадратичного пространства, если ключи, вставленные в хэш-таблицу первого уровня, равномерно распределены , структура в целом занимает ожидаемое пространство O ( n ), поскольку размеры корзины с большой вероятностью малы . ^[1]

Хэш-функция первого уровня специально выбрана таким образом, чтобы для конкретного набора из x уникальных значений ключа общее пространство T, используемое всеми хэш-таблицами второго уровня, ожидало пространства O ( n ), а более конкретно T ~~Фредман, Комлос и Семереди показали, что с учетом~~ универсального семейства хеш-функций по крайней мере половина этих функций обладает этим свойством. ^[2]

Динамический кейс

Dietzfelbinger et al. представляет алгоритм динамического словаря, который, когда набор из n элементов постепенно добавляется к словарю, запросы членства всегда выполняются в постоянное время и, следовательно, O (1) в худшем случае время, общее требуемое хранилище составляет O (n) (линейно) , и O (1) ожидаемое амортизированное время вставки и удаления ( амортизированное постоянное время ).

В динамическом случае, когда ключ вставляется в хеш-таблицу, если его запись в соответствующей подтаблице занята, то говорят, что происходит коллизия, и подтаблица перестраивается на основе ее нового общего количества записей и случайно выбранной хеш-функции. Поскольку коэффициент загрузки таблицы второго уровня поддерживается низким (1 / k ), перестройка выполняется нечасто, а амортизированная ожидаемая стоимость вставок равна O (1). ^[2] Аналогично, амортизированная ожидаемая стоимость удалений составляет O (1). ^[2]

Кроме того, в динамическом случае неизвестны конечные размеры таблицы верхнего уровня или любой из подтаблиц. Один из методов сохранения ожидаемого O ( n ) пространства таблицы - это запрос на полную реконструкцию, когда произошло достаточное количество вставок и удалений. По результатам, полученным Dietzfelbinger et al., ^[2], пока общее количество вставок или удалений превышает количество элементов на момент последней конструкции, амортизированная ожидаемая стоимость вставки и удаления остается равной O (1) с полным повторным хешированием. принимая во внимание.

Реализация динамического идеального хеширования Дитцфельбингером и соавт. использует эти концепции, а также ленивое удаление , что показано в псевдокоде ниже.

Реализация псевдокода

Найдите

функция Locate ( x ) равна  j  : = h ( x ) if (позиция h _j ( x ) подтаблицы T _j содержит x (не удалена)) return ( x находится в S ) end if  else  return ( x не находится в S ) конец еще конец

Вставлять

Во время вставки новой записи x в j увеличивается счетчик глобальных операций count .

Если x существует в j , но помечен как удаленный, то отметка удаляется.

Если x существует в j или в подтаблице T _j и не помечен как удаленный, то говорят, что произошла коллизия, и таблица T _j второго уровня j- ^го сегмента перестраивается с другой случайно выбранной хеш-функцией h _j .

функция Insert ( x ) - это  count = count + 1; если ( количество > M ) FullRehash ( x ); конец, если  иначе  j = h ( x ); if (Позиция h _j (x) подтаблицы T _j содержит x ) if ( x помечен как удаленный) удалить маркер удаления; конец, если  конец, если  еще  b _j = b _j + 1; if ( b _j <= m _j ), если позиция h _j ( x ) в T _j пуста сохранить x в позиции h _j ( x ) из T _j ; end if  else Поместите все неотмеченные элементы T _j в список L _j ; Добавить x в список L _j ; b _j = длина L _j ; повторить  h _j = случайно выбранная функция в H _sj ; пока  h _j не инъективен на элементах L _j ; для всех y в списке L _j сохраните y в позиции h _j ( y ) T _j ; конец за  конец иначе  конец, если  еще  m _j = 2 * max {1, m _j }; s _j = 2 * m _j * ( m _j - 1); если сумма всех s _j ≤ 32 * M ² / s ( M ) + 4 * M Выделить s _j ячеек для T _j ; Поместите все неотмеченные элементы T _j в список L _j ; Добавить x в список L _j ; b _j = длина L _j ; повторить  h _j = случайно выбранная функция в H _sj ; пока  h _j не инъективен на элементах L _j ; для всех y в списке L _j сохраните y в позиции h _j ( y ) T _j ; конец за  конец, если  иначе FullRehash ( x ); конец еще  конец еще  конец еще  конец конец еще конец

Удалить

Удаление x просто помечает x как удаленное без удаления и увеличивает счетчик . В случае как вставок, так и удалений, если счетчик достигает порога M, вся таблица перестраивается, где M является некоторым постоянным кратным размеру S в начале новой фазы . Здесь фаза означает время между полными перестройками. Обратите внимание , что здесь -1 в «Delete ( х )» является представлением элемента , который не находится в множестве всех возможных элементов U .

функция Delete ( x ) равна  count = count + 1; j = h ( x ); если положение ч _J ( х ) из субтаблицы Tj содержит х метки х как удаленные; end if  else  return (x не является членом S); конец иначе  if ( count > = M ) FullRehash (-1); конец, если конец

Полная перестройка

Полное восстановление из таблицы S первых начинается, удалив все элементы , помеченные как удаленные , а затем установку следующего порогового значения M до некоторых постоянная кратного размера S . Хеш-функция, которая разбивает S на s ( M ) подмножеств, где размер подмножества j равен s _j , периодически выбирается случайным образом до тех пор, пока:

${\ displaystyle \ sum _ {0 \ leq j \ leq s (M)} s_ {j} \ leq {\ frac {32M ^ {2}} {s (M)}} + 4M.}$

Наконец, для каждой подтаблицы T _j хеш-функция h _j повторно случайным образом выбирается из H _sj до тех пор, пока h _{j не} станет инъективным по элементам T _j . Ожидаемое время для полного перестроения таблицы S с размером n составляет O ( n ). ^[2]

функция FullRehash ( x ) : Помещает все неотмеченные элементы T в список L ; если ( x находится в U ) добавить x к L ; конец, если  количество = длина списка L ; M = (1 + c ) * max { count , 4}; повторить h = случайно выбранная функция в H _{s (M)} ; для всех j < s ( M ) сформировать список L _j для h ( x ) = j ; b _j = длина L _j ; m _j = 2 * b _j ; s _j = 2 * m _j * ( m _j - 1); конец для  до тех пор, пока сумма всех s _j ≤ 32 * M ² / s ( M ) + 4 * M  для всех j < s ( M ) Выделите пространство s _j для подтаблицы T _j ; повторить  h _j = случайно выбранная функция в H _sj ; пока  h _{j не} станет инъективным на элементах списка L _j ; конец для  для всех й на список L _J магазина х в положении ч _J ( х ) от T _J ; конец за концом

Смотрите также

Идеальное хеширование