Универсальное хеширование

В математике и вычислительной , универсальное хеширование (в рандомизированном алгоритме или структуре данных) относится к выбору хэш - функцию случайным образом из семейства хэш - функций с определенным математическим свойством (см определение ниже). Это гарантирует небольшое количество ожидаемых коллизий , даже если данные выбираются злоумышленником. Известно много универсальных семейств (для хеширования целых чисел, векторов, строк), и их вычисление часто бывает очень эффективным. Универсальное хеширование имеет множество применений в информатике, например, при реализации хеш-таблиц , рандомизированных алгоритмов и криптографии .

Вступление

Предположим, мы хотим сопоставить ключи из какой-то вселенной ${\ displaystyle U}$ в ${\ displaystyle m}$ ящики (помечены ${\ Displaystyle [м] = \ {0, \ точки, м-1 \}}$ ). Алгоритм должен будет обработать некоторый набор данных. ${\ Displaystyle S \ substeq U}$ из ${\ Displaystyle | S | = п}$ ключи, о которых заранее не известно. Обычно целью хеширования является получение небольшого количества коллизий (ключей от ${\ displaystyle S}$ что земля в том же мусорном ведре). Детерминированная хеш-функция не может предложить никаких гарантий в состязательной обстановке, если размер ${\ displaystyle U}$ больше, чем ${\ Displaystyle м \ cdot п}$ , поскольку противник может выбрать ${\ displaystyle S}$ быть точным прообразом мусорного ведра. Это означает, что все ключи данных попадают в одну и ту же корзину, что делает хеширование бесполезным. Более того, детерминированная хеш-функция не позволяет перехешировать : иногда входные данные оказываются плохими для хеш-функции (например, слишком много коллизий), поэтому хеш-функцию хотелось бы изменить.

Решение этих проблем состоит в том, чтобы случайным образом выбрать функцию из семейства хеш-функций. Семейство функций ${\ displaystyle H = \ {h: U \ to [m] \}}$ называется универсальной семьей, если, ${\ displaystyle \ forall x, y \ in U, ~ x \ neq y: ~~ \ Pr _ {h \ in H} [h (x) = h (y)] \ leq {\ frac {1} {m }}}$ .

Другими словами, любые два ключа Вселенной сталкиваются с вероятностью не более ${\ displaystyle 1 / m}$ когда хеш-функция ${\ displaystyle h}$ выбирается случайным образом из ${\ displaystyle H}$ . Это именно та вероятность столкновения, которую мы могли бы ожидать, если бы хеш-функция назначила действительно случайные хэш-коды каждому ключу. Иногда определение смягчается, чтобы допустить вероятность столкновения ${\ Displaystyle О (1 / м)}$ . Эта концепция была введена Картером и Вегманом ^[1] в 1977 году и нашла множество приложений в компьютерных науках (см., Например, ^[2] ). Если у нас есть верхняя граница ${\ displaystyle \ epsilon <1}$ о вероятности столкновения мы говорим, что имеем ${\ displaystyle \ epsilon}$ -почти универсальность.

Многие, но не все универсальные семейства обладают следующим более сильным свойством равномерной разности :

{\ displaystyle \ forall x, y \ in U, ~ x \ neq y}

, когда

{\ displaystyle h}

выбирается случайным образом из семьи

{\ displaystyle H}

, различия

{\ Displaystyle ч (х) -ч (у) ~ {\ bmod {~}} м}

равномерно распределен в

{\ Displaystyle [м]}

.

Обратите внимание, что определение универсальности касается только того, ${\ displaystyle h (x) -h (y) = 0}$ , который считает столкновения. Свойство равномерной разности сильнее.

(Точно так же универсальное семейство может быть универсальным XOR, если ${\ displaystyle \ forall x, y \ in U, ~ x \ neq y}$ , Значение ${\ Displaystyle ч (х) \ oplus ч (у) ~ {\ bmod {~}} м}$ равномерно распределен в ${\ Displaystyle [м]}$ где ${\ displaystyle \ oplus}$ - побитовая операция исключающее ИЛИ. Это возможно только в том случае, если ${\ displaystyle m}$ это степень двойки.)

Еще более сильным условием является попарная независимость : это свойство имеет место, когда ${\ displaystyle \ forall x, y \ in U, ~ x \ neq y}$ у нас есть вероятность, что ${\ displaystyle x, y}$ будет хешировать любую пару хеш-значений ${\ displaystyle z_ {1}, z_ {2}}$ как если бы они были совершенно случайными: ${\ Displaystyle P (час (х) = z_ {1} \ земля h (y) = z_ {2}) = 1 / м ^ {2}}$ . Попарную независимость иногда называют сильной универсальностью.

Еще одно свойство - однородность. Мы говорим, что семья однородна, если все значения хеш-функции равновероятны: ${\ Displaystyle Р (час (х) = г) = 1 / м}$ для любого значения хеш-функции ${\ displaystyle z}$ . Универсальность не означает единообразия. Однако сильная универсальность подразумевает единообразие.

Учитывая семейство со свойством равномерного расстояния, можно создать попарно независимое или строго универсальное хэш-семейство, добавив равномерно распределенную случайную константу со значениями в ${\ Displaystyle [м]}$ к хеш-функциям. (Аналогично, если ${\ displaystyle m}$ является степенью двойки, мы можем добиться попарной независимости от универсального семейства хешей XOR, выполнив исключающую или с равномерно распределенной случайной константой.) Поскольку сдвиг на константу иногда не имеет значения в приложениях (например, в хеш-таблицах), тщательное различие между свойством равномерного расстояния и попарно независимым иногда не делается. ^[3]

Для некоторых приложений (например, хеш-таблиц) важно, чтобы наименее значимые биты хеш-значений также были универсальными. Когда семья строго универсальна, это гарантировано: если ${\ displaystyle H}$ это сильно универсальная семья с ${\ displaystyle m = 2 ^ {L}}$ , то семейство функций ${\ Displaystyle ч {\ bmod {2 ^ {L '}}}}$ для всех ${\ displaystyle h \ in H}$ также сильно универсален для ${\ Displaystyle L '\ leq L}$ . К сожалению, этого нельзя сказать о (просто) универсальных семьях. Например, семья, состоящая из функции идентичности ${\ Displaystyle ч (х) = х}$ явно универсальный, но семейство, состоящее из функции ${\ Displaystyle ч (х) = х {\ bmod {2 ^ {L '}}}}$ не может быть универсальным.

UMAC и Poly1305-AES, а также несколько других алгоритмов кода аутентификации сообщений основаны на универсальном хешировании. ^[4]^[5] В таких приложениях программное обеспечение выбирает новую хеш-функцию для каждого сообщения на основе уникального одноразового номера для этого сообщения.

Несколько реализаций хеш-таблиц основаны на универсальном хешировании. В таких приложениях, как правило, программное обеспечение выбирает новую хеш-функцию только после того, как замечает, что "слишком много" ключей столкнулись; до тех пор одна и та же хеш-функция продолжает использоваться снова и снова. (Некоторые схемы разрешения коллизий, такие как динамическое идеальное хеширование , выбирают новую хеш-функцию каждый раз, когда есть коллизия. Другие схемы разрешения коллизий, такие как хеширование с кукушкой и хеширование с двумя вариантами , допускают ряд коллизий перед выбором новой хеш-функции ). Обзор самых быстрых известных универсальных и сильно универсальных хеш-функций для целых чисел, векторов и строк можно найти в ^[6].

Математические гарантии

Для любого фиксированного набора ${\ displaystyle S}$ из ${\ displaystyle n}$ ключи, использующие универсальное семейство, гарантирует следующие свойства.

Для любых фиксированных ${\ displaystyle x}$ в ${\ displaystyle S}$ , ожидаемое количество ключей в корзине ${\ Displaystyle ч (х)}$ является ${\ displaystyle n / m}$ . При реализации хэш-таблиц путем объединения это число пропорционально ожидаемому времени выполнения операции с использованием ключа ${\ displaystyle x}$ (например, запрос, вставка или удаление).
Ожидаемое количество пар ключей ${\ displaystyle x, y}$ в ${\ displaystyle S}$ с участием ${\ Displaystyle х \ neq y}$ которые сталкиваются ( ${\ Displaystyle ч (х) = ч (у)}$ ) ограничена сверху величиной ${\ Displaystyle п (п-1) / 2м}$ , что в порядке ${\ Displaystyle О (п ^ {2} / м)}$ . Когда количество ящиков, ${\ displaystyle m}$ выбирается линейно по ${\ displaystyle n}$ (т. е. определяется функцией в ${\ Displaystyle \ Omega (п)}$ ) ожидаемое количество столкновений равно ${\ Displaystyle О (п)}$ . При хешировании в ${\ Displaystyle п ^ {2}}$ бункеры, коллизий вообще нет с вероятностью не меньше половины.
Ожидаемое количество ключей в ящиках не менее ${\ displaystyle t}$ ключей в них ограничено сверху ${\ Displaystyle 2n / (т-2 (п / м) +1)}$ . ^[7] Таким образом, если емкость каждого бункера в три раза превышает средний размер ( ${\ displaystyle t = 3n / m}$ ) общее количество ключей в переполненных ячейках не превышает ${\ Displaystyle О (м)}$ . Это справедливо только для хеш-семейства, вероятность столкновения которого ограничена сверху величиной ${\ displaystyle 1 / m}$ . Если используется более слабое определение, ограничивая его ${\ Displaystyle О (1 / м)}$ , этот результат больше не соответствует действительности. ^[7]

Поскольку приведенные выше гарантии справедливы для любого фиксированного набора ${\ displaystyle S}$ , они остаются в силе, если набор данных выбран злоумышленником. Однако злоумышленник должен сделать этот выбор до (или независимо от) случайного выбора алгоритмом хэш-функции. Если злоумышленник может наблюдать случайный выбор алгоритма, случайность не имеет смысла, и ситуация аналогична детерминированному хешированию.

Вторая и третья гарантии обычно используются вместе с повторным хешированием . Например, может быть подготовлен рандомизированный алгоритм для обработки некоторых ${\ Displaystyle О (п)}$ количество столкновений. Если он наблюдает слишком много столкновений, он выбирает другое случайное ${\ displaystyle h}$ из семьи и повторяется. Универсальность гарантирует, что количество повторений является геометрической случайной величиной .

Конструкции

Поскольку любые компьютерные данные могут быть представлены как одно или несколько машинных слов, обычно требуются хеш-функции для трех типов доменов: машинные слова («целые числа»); векторы машинных слов фиксированной длины; и векторы переменной длины («строки»).

Хеширование целых чисел

Этот раздел относится к случаю хеширования целых чисел, которые умещаются в машинных словах; таким образом, такие операции, как умножение, сложение, деление и т. д., являются дешевыми инструкциями машинного уровня. Пусть вселенная будет хеширована ${\ Displaystyle \ {0, \ точки, | U | -1 \}}$ .

Первоначальное предложение Картера и Вегмана ^[1] заключалось в выборе простого ${\ displaystyle p \ geq | U |}$ и определить

{\ displaystyle h_ {a, b} (x) = ((ax + b) ~ {\ bmod {~}} p) ~ {\ bmod {~}} m}

где ${\ displaystyle a, b}$ случайно выбранные целые числа по модулю ${\ displaystyle p}$ с участием ${\ displaystyle a \ neq 0}$ . (Это единственная итерация линейного конгруэнтного генератора .)

Чтобы увидеть это ${\ displaystyle H = \ {h_ {a, b} \}}$ универсальная семья, обратите внимание, что ${\ Displaystyle ч (х) = ч (у)}$ только когда

{\ Displaystyle топор + б \ эквив ау + б + я \ cdot м {\ pmod {p}}}

для некоторого целого числа ${\ displaystyle i}$ между ${\ displaystyle 0}$ а также ${\ Displaystyle (п-1) / м}$ . С ${\ displaystyle p \ geq | U |}$ , если ${\ Displaystyle х \ neq y}$ их отличие ${\ displaystyle xy}$ отличен от нуля и имеет обратный по модулю ${\ displaystyle p}$ . Решение для ${\ displaystyle a}$ дает

{\ Displaystyle а \ экви я \ cdot м \ cdot (ху) ^ {- 1} {\ pmod {p}}}

.

Есть ${\ displaystyle p-1}$ возможные варианты для ${\ displaystyle a}$ (поскольку ${\ displaystyle a = 0}$ исключен) и, варьируя ${\ displaystyle i}$ в допустимом диапазоне, ${\ Displaystyle \ lfloor (п-1) / м \ rfloor}$ возможные ненулевые значения для правой части. Таким образом, вероятность столкновения равна

{\ Displaystyle \ lfloor (p-1) / m \ rfloor / (p-1) \ leq ((p-1) / m) / (p-1) = 1 / m}

.

Другой способ увидеть ${\ displaystyle H}$ является универсальным семейством через понятие статистического расстояния . Напишите разницу ${\ Displaystyle ч (х) -ч (у)}$ в виде

{\ Displaystyle h (x) -h (y) \ Equiv (a (xy) ~ {\ bmod {~}} p) {\ pmod {m}}}

.

С ${\ displaystyle xy}$ отличен от нуля и ${\ displaystyle a}$ равномерно распределен в ${\ Displaystyle \ {1, \ точки, п-1 \}}$ , следует, что ${\ Displaystyle а (ху)}$ по модулю ${\ displaystyle p}$ также равномерно распределен в ${\ Displaystyle \ {1, \ точки, п-1 \}}$ . Распределение ${\ Displaystyle (ч (х) -ч (у)) ~ {\ bmod {~}} м}$ таким образом, почти равномерно, с точностью до разницы в вероятности ${\ displaystyle \ pm 1 / p}$ между образцами. В результате статистическое расстояние до однородного семейства равно ${\ Displaystyle О (м / п)}$ , который становится незначительным, когда ${\ displaystyle p \ gg m}$ .

Семейство более простых хеш-функций

{\ displaystyle h_ {a} (x) = (ax ~ {\ bmod {~}} p) ~ {\ bmod {~}} m}

только приблизительно универсален: ${\ Displaystyle \ Pr \ {h_ {a} (x) = h_ {a} (y) \} \ leq 2 / m}$ для всех ${\ Displaystyle х \ neq y}$ . ^[1] Более того, этот анализ почти точен; Картер и Вегман ^[1] показывают, что ${\ Displaystyle \ Pr \ {h_ {a} (1) = h_ {a} (m + 1) \} \ geq 2 / (m-1)}$ в любое время ${\ Displaystyle (п-1) ~ {\ bmod {~}} м = 1}$ .

Избегайте модульной арифметики

Состояние искусства для хеширования целых чисел является множественно-сдвига схемы описывается Dietzfelbinger и соавт. в 1997 г. ^{[8] За} счет отказа от модульной арифметики этот метод намного проще реализовать, а также он работает значительно быстрее на практике (обычно как минимум в четыре раза ^[9] ). Схема предполагает, что количество бункеров является степенью двойки, ${\ displaystyle m = 2 ^ {M}}$ . Позволять ${\ displaystyle w}$ быть количеством бит в машинном слове. Затем хэш-функции параметризуются над нечетными положительными целыми числами. ${\ displaystyle a <2 ^ {w}}$ (это вписывается в слово ${\ displaystyle w}$ биты). Оценить ${\ displaystyle h_ {a} (x)}$ , умножить ${\ displaystyle x}$ от ${\ displaystyle a}$ по модулю ${\ displaystyle 2 ^ {w}}$ а затем сохранить высокий порядок ${\ displaystyle M}$ бит в качестве хэш-кода. В математической записи это

{\ displaystyle h_ {a} (x) = (a \ cdot x \, \, {\ bmod {\,}} 2 ^ {w}) \, \, \ mathrm {div} \, \, 2 ^ { wM}}

и это может быть реализовано на C- подобных языках программирования с помощью

{\ displaystyle h_ {a} (x) =}

(size_t) (a*x) >> (w-M)

Эта схема не удовлетворяет свойству равномерной разности и только ${\ displaystyle 2 / m}$ -почти универсальный ; для любой ${\ Displaystyle х \ neq y}$ , ${\ Displaystyle \ Pr \ {h_ {a} (x) = h_ {a} (y) \} \ leq 2 / m}$ .

Чтобы понять поведение хеш-функции, обратите внимание, что если ${\ displaystyle ax {\ bmod {2}} ^ {w}}$ а также ${\ displaystyle ay {\ bmod {2}} ^ {w}}$ имеют одинаковые биты M самого высокого порядка, тогда ${\ Displaystyle а (ху) {\ bmod {2}} ^ {ш}}$ имеет либо все единицы, либо все 0 в качестве своих M бит наивысшего порядка (в зависимости от того, ${\ displaystyle ax {\ bmod {2}} ^ {w}}$ или же ${\ displaystyle ay {\ bmod {2}} ^ {w}}$ больше). Предположим, что младший бит набора ${\ displaystyle xy}$ появляется на позиции ${\ displaystyle wc}$ . С ${\ displaystyle a}$ является случайным нечетным целым числом, а нечетные целые числа имеют обратные в кольце ${\ displaystyle Z_ {2 ^ {w}}}$ , следует, что ${\ Displaystyle а (ху) {\ bmod {2}} ^ {ш}}$ будут равномерно распределены среди ${\ displaystyle w}$ -битовые целые числа с наименее значимым установленным битом в позиции ${\ displaystyle wc}$ . Вероятность того, что все эти биты - это все нули или все единицы, поэтому не более ${\ Displaystyle 2/2 ^ {M} = 2 / м}$ . С другой стороны, если ${\ displaystyle c }>$ , то старшие M битов ${\ Displaystyle а (ху) {\ bmod {2}} ^ {ш}}$ содержат как 0, так и 1, поэтому очевидно, что ${\ Displaystyle ч (х) \ neq ч (у)}$ . Наконец, если ${\ displaystyle c = M}$ затем укусил ${\ displaystyle wM}$ из ${\ Displaystyle а (ху) {\ bmod {2}} ^ {ш}}$ равно 1 и ${\ displaystyle h_ {a} (x) = h_ {a} (y)}$ если и только если биты ${\ Displaystyle ш-1, \ ldots, ш-М + 1}$ также равны 1, что с вероятностью ${\ Displaystyle 1/2 ^ {М-1} = 2 / м}$ .

Этот анализ точен, как можно показать на примере. ${\ displaystyle x = 2 ^ {wM-2}}$ а также ${\ displaystyle y = 3x}$ . Чтобы получить действительно «универсальную» хеш-функцию, можно использовать схему умножения-сложения-сдвига.

{\ displaystyle h_ {a, b} (x) = ((ax + b) {\ bmod {2}} ^ {w}) \, \ mathrm {div} \, 2 ^ {wM}}

который может быть реализован в C- подобных языках программирования с помощью

{\ displaystyle h_ {a, b} (x) =}

(size_t) (a*x+b) >> (w-M)

где ${\ displaystyle a}$ является случайным нечетным положительным целым числом с ${\ displaystyle a <2 ^ {w}}$ а также ${\ displaystyle b}$ является случайным неотрицательным целым числом с ${\ displaystyle b <2 ^ {wM}}$ . С этим выбором ${\ displaystyle a}$ а также ${\ displaystyle b}$ , ${\ Displaystyle \ Pr \ {h_ {a, b} (x) = h_ {a, b} (y) \} \ leq 1 / m}$ для всех ${\ Displaystyle х \ not \ Equiv Y {\ pmod {2 ^ {w}}}}$ . ^[10] Это немного, но существенно отличается от неправильного перевода в английской статье. ^[11]

Хеширование векторов

В этом разделе рассматривается хеширование вектора машинных слов фиксированной длины. Интерпретировать ввод как вектор ${\ displaystyle {\ bar {x}} = (x_ {0}, \ dots, x_ {k-1})}$ из ${\ displaystyle k}$ машинные слова (целые числа ${\ displaystyle w}$ бит каждый). Если ${\ displaystyle H}$ является универсальным семейством со свойством равномерной разности, следующее семейство (восходящее к Картеру и Вегману ^[1] ) также обладает свойством равномерной разности (и, следовательно, является универсальным):

{\ displaystyle h ({\ bar {x}}) = \ left (\ sum _ {i = 0} ^ {k-1} h_ {i} (x_ {i}) \ right) \, {\ bmod { ~}} м}

, где каждый

{\ displaystyle h_ {i} \ in H}

выбирается независимо случайно.

Если ${\ displaystyle m}$ является степенью двойки, можно заменить суммирование исключающим или. ^[12]

На практике, если доступна арифметика двойной точности, она создается с помощью семейства хеш-функций с множественным сдвигом. ^[13] Инициализировать хеш-функцию вектором ${\ displaystyle {\ bar {a}} = (a_ {0}, \ dots, a_ {k-1})}$ случайных нечетных целых чисел на ${\ displaystyle 2w}$ бит каждый. Тогда, если количество бункеров равно ${\ displaystyle m = 2 ^ {M}}$ для ${\ displaystyle M \ leq w}$ :

{\ displaystyle h _ {\ bar {a}} ({\ bar {x}}) = \ left ({\ big (} \ sum _ {i = 0} ^ {k-1} x_ {i} \ cdot a_ {i} {\ big)} ~ {\ bmod {~}} 2 ^ {2w} \ right) \, \, \ mathrm {div} \, \, 2 ^ {2w-M}}

.

Число умножений можно уменьшить вдвое, что на практике дает примерно двукратное ускорение. ^[12] Инициализировать хеш-функцию вектором ${\ displaystyle {\ bar {a}} = (a_ {0}, \ dots, a_ {k-1})}$ случайных нечетных целых чисел на ${\ displaystyle 2w}$ бит каждый. Следующее семейство хешей является универсальным: ^[14]

{\ displaystyle h _ {\ bar {a}} ({\ bar {x}}) = \ left ({\ Big (} \ sum _ {i = 0} ^ {\ lceil k / 2 \ rceil} (x_ { 2i} + a_ {2i}) \ cdot (x_ {2i + 1} + a_ {2i + 1}) {\ Big)} {\ bmod {~}} 2 ^ {2w} \ right) \, \, \ mathrm {div} \, \, 2 ^ {2w-M}}

.

Если операции с двойной точностью недоступны, можно интерпретировать ввод как вектор полуслов ( ${\ displaystyle w / 2}$ -битовые целые числа). Затем алгоритм будет использовать ${\ Displaystyle \ lceil к / 2 \ rceil}$ умножения, где ${\ displaystyle k}$ число полуслов в векторе. Таким образом, алгоритм работает со «скоростью» одно умножение на слово ввода.

Ту же схему можно использовать для хеширования целых чисел, интерпретируя их биты как векторы байтов. В этом варианте векторный метод известен как хеширование таблиц и обеспечивает практическую альтернативу универсальным схемам хеширования на основе умножения. ^[15]

Также возможна сильная универсальность на высокой скорости. ^[16] Инициализировать хеш-функцию вектором ${\ displaystyle {\ bar {a}} = (a_ {0}, \ dots, a_ {k})}$ случайных целых чисел на ${\ displaystyle 2w}$ биты. Вычислить

{\ displaystyle h _ {\ bar {a}} ({\ bar {x}}) ^ {\ mathrm {strong}} = (a_ {0} + \ sum _ {i = 0} ^ {k-1} a_ {i + 1} x_ {i} {\ bmod {~}} 2 ^ {2w}) \, \, \ mathrm {div} \, \, 2 ^ {w}}

.

Результат универсален на ${\ displaystyle w}$ биты. Экспериментально было обнаружено, что он работает при 0,2 цикла ЦП на байт на последних процессорах Intel для ${\ displaystyle w = 32}$ .

Хеширование строк

Это относится к хешированию вектора машинных слов переменного размера . Если длина строки может быть ограничена небольшим числом, лучше всего использовать векторное решение сверху (концептуально дополняя вектор нулями до верхней границы). Требуемое пространство - это максимальная длина строки, но время для оценки ${\ displaystyle h (s)}$ это просто длина ${\ displaystyle s}$ . Пока нули в строке запрещены, заполнение нулями можно игнорировать при оценке хэш-функции, не влияя на универсальность. ^[12] Обратите внимание, что если в строке разрешены нули, то, возможно, лучше всего добавить фиктивный ненулевой символ (например, 1) ко всем строкам до заполнения: это гарантирует, что универсальность не пострадает. ^[16]

Теперь предположим, что мы хотим хешировать ${\ displaystyle {\ bar {x}} = (x_ {0}, \ dots, x _ {\ ell})}$ , где хорошая граница ${\ displaystyle \ ell}$ не известно априори. Универсальное семейство, предложенное в ^[13], рассматривает струну ${\ displaystyle x}$ как коэффициенты многочлена по простому модулю. Если ${\ Displaystyle х_ {я} \ в [и]}$ , позволять ${\ Displaystyle п \ geq \ макс \ {и, м \}}$ быть простым и определить:

{\ displaystyle h_ {a} ({\ bar {x}}) = h _ {\ mathrm {int}} \ left ({\ big (} \ sum _ {i = 0} ^ {\ ell} x_ {i}) \ cdot a ^ {\ ell -i} {\ big)} {\ bmod {~}} p \ right)}

, где

{\ Displaystyle а \ в [п]}

равномерно случайный и

{\ displaystyle h _ {\ mathrm {int}}}

выбирается случайным образом из универсальной целочисленной области отображения семейства

{\ Displaystyle [п] \ mapsto [м]}

.

Используя свойства модульной арифметики, вышеприведенное можно вычислить без получения больших чисел для больших строк следующим образом: ^[17]

uint  hash ( String  x ,  int  a ,  int  p ) uint  h  =  INITIAL_VALUE for  ( uint  i = 0  ;  i  <  x . length  ;  ++ i ) h  =  (( h * a )  +  x [ i ])  mod  p return  час

Этот скользящий хеш Рабина-Карпа основан на линейном конгруэнтном генераторе . ^[18] Вышеупомянутый алгоритм также известен как мультипликативная хеш-функция . ^[19] На практике оператора mod и параметра p можно полностью избежать, просто разрешив целочисленное переполнение, потому что это эквивалентно mod ( Max-Int-Value + 1) во многих языках программирования. В таблице ниже показаны значения, выбранные для инициализации h и a для некоторых популярных реализаций.

Выполнение	НАЧАЛЬНОЕ ЗНАЧЕНИЕ	а
Бернштейн хэш - функция «ы djb2 ^[20]	5381	33
STLPort 4.6.2	0	5
Хеш-функция Кернигана и Ричи ^[21]	0	31 год
`java.lang.String.hashCode()`^[22]	0	31 год

Рассмотрим две строки ${\ displaystyle {\ bar {x}}, {\ bar {y}}}$ и разреши ${\ displaystyle \ ell}$ быть длиной более длинного; для анализа более короткая строка концептуально дополняется нулями до длины ${\ displaystyle \ ell}$ . Столкновение перед подачей заявки ${\ displaystyle h _ {\ mathrm {int}}}$ подразумевает, что ${\ displaystyle a}$ является корнем многочлена с коэффициентами ${\ displaystyle {\ bar {x}} - {\ bar {y}}}$ . Этот многочлен имеет не более ${\ displaystyle \ ell}$ корни по модулю ${\ displaystyle p}$ , поэтому вероятность столкновения не превосходит ${\ displaystyle \ ell / p}$ . Вероятность столкновения из-за случайного ${\ displaystyle h _ {\ mathrm {int}}}$ доводит общую вероятность столкновения до ${\ displaystyle {\ frac {1} {m}} + {\ frac {\ ell} {p}}}$ . Таким образом, если простое число ${\ displaystyle p}$ достаточно велико по сравнению с длиной хешированных строк, семейство очень близко к универсальному (по статистической дистанции ).

Другие универсальные семейства хеш-функций, используемых для хеширования строк неизвестной длины в хеш-значения фиксированной длины, включают отпечаток Рабина и Бужаш .

Избегайте модульной арифметики

Чтобы уменьшить вычислительные затраты модульной арифметики, на практике используются три уловки: ^[12]

Один выбирает премьер ${\ displaystyle p}$ быть близким к степени двойки, такой как простое число Мерсенна . Это позволяет выполнять арифметические операции по модулю ${\ displaystyle p}$ быть реализованным без деления (с использованием более быстрых операций, таких как сложение и сдвиги). Например, на современных архитектурах можно работать с ${\ displaystyle p = 2 ^ {61} -1}$ , пока ${\ displaystyle x_ {i}}$ - 32-битные значения.
К блокам можно применить векторное хеширование. Например, один применяет векторное хеширование к каждому блоку из 16 слов строки и применяет хеширование строки к ${\ Displaystyle \ lceil к / 16 \ rceil}$ полученные результаты. Поскольку более медленное хеширование строки применяется к вектору существенно меньшего размера, это будет по существу так же быстро, как и хеширование вектора.
В качестве делителя выбирается степень двойки, что позволяет выполнять арифметические операции по модулю ${\ displaystyle 2 ^ {w}}$ быть реализовано без деления (с использованием более быстрых операций битовой маскировки ). Этот подход используется в семействе хэш-функций NH .

Смотрите также

K-независимое хеширование
Скользящее хеширование
Хеширование табуляции
Мудрая независимость
Универсальная односторонняя хеш-функция
Последовательность с низким расхождением
Идеальное хеширование

дальнейшее чтение

Кнут, Дональд Эрвин (1998). Искусство программирования, Vol. III: Сортировка и поиск (3-е изд.). Чтение, месса; Лондон: Аддисон-Уэсли. ISBN 0-201-89685-0.

Внешние ссылки

Структуры открытых данных - Раздел 5.1.1 - Мультипликативное хеширование , Пэт Морин

[CW77-1] Картер, Ларри; Вегман, Марк Н. (1979). «Универсальные классы хэш-функций». Журнал компьютерных и системных наук . 18 (2): 143–154. DOI : 10.1016 / 0022-0000 (79) 90044-8 . Версия конференции в STOC'77.

[Miltersen-2] Милтерсен, Питер Бро. «Универсальное хеширование» (PDF) . Архивировано из оригинального (PDF) 24 мая 2011 года . Проверено 24 июня 2009 года .

[3] Мотвани, Раджив; Рагхаван, Прабхакар (1995). Рандомизированные алгоритмы . Издательство Кембриджского университета. п. 221. ISBN. 0-521-47465-5.

[4] Дэвид Вагнер, изд. «Достижения в криптологии - CRYPTO 2008» . п. 145.

[5] Жан-Филипп Аумассон, Вилли Мейер, Рафаэль Фан, Лука Хензен. «Хеш-функция BLAKE» . 2014. с. 10.

[6] Торуп, Миккель (2015). «Высокоскоростное хеширование для целых чисел и строк». arXiv : 1504.06804 [ cs.DS ].

[BDP-7] а б Баран, Илья; Demaine, Erik D .; Пэтрашку, Михай (2008). «Субквадратные алгоритмы для 3SUM» (PDF) . Алгоритмика . 50 (4): 584–596. DOI : 10.1007 / s00453-007-9036-3 .

[DHKP97-8] Дицфельбингер, Мартин; Хагеруп, Торбен; Катаянен, Юрки; Пенттонен, Марти (1997). «Надежный рандомизированный алгоритм для задачи ближайшей пары» (Postscript) . Журнал алгоритмов . 25 (1): 19–51. DOI : 10.1006 / jagm.1997.0873 . Проверено 10 февраля 2011 года .

[9] Thorup, Mikkel . «Учебник алгоритмов в SODA» .

[w03-10] Вельфель, Филипп (2003). Über die Komplexität der Multiplikation in eingeschränkten Branchingprogrammmodellen (PDF) (Ph.D.). Universität Dortmund . Проверено 18 сентября 2012 года .

[w99-11] Вельфель, Филипп (1999). Эффективное строго универсальное и оптимально универсальное хеширование . Математические основы информатики 1999. LNCS. 1672 . С. 262–272. DOI : 10.1007 / 3-540-48340-3_24 .

[thorup09-12] а б в г Торуп, Миккель (2009). Хеширование строк для линейного зондирования . Proc. 20-й симпозиум ACM-SIAM по дискретным алгоритмам (SODA) . С. 655–664. CiteSeerX 10.1.1.215.4253 . DOI : 10.1137 / 1.9781611973068.72 ., раздел 5.3

[DGMP-13] а б Дицфельбингер, Мартин; Гил, Джозеф; Матиас, Йосси; Пиппенгер, Николас (1992). Полиномиальные хеш-функции надежны (расширенная аннотация) . Proc. 19-й Международный коллоквиум по автоматам, языкам и программированию (ICALP) . С. 235–246.

[black-14] Black, J .; Halevi, S .; Krawczyk, H .; Кровец, Т. (1999). UMAC: быстрая и безопасная проверка подлинности сообщений (PDF) . Достижения в криптологии (CRYPTO '99) ., Уравнение 1

[15] Пэтрашку, Михай ; Торуп, Миккель (2011). Возможности простого хеширования таблиц . Материалы 43-го ежегодного симпозиума ACM по теории вычислений (STOC '11) . С. 1–10. arXiv : 1011.5200 . DOI : 10.1145 / 1993636.1993638 .

[kaser2013-16] а б Касер, Оуэн; Лемир, Даниэль (2013). «Сильно универсальное хеширование строк выполняется быстро». Компьютерный журнал . Издательство Оксфордского университета. 57 (11): 1624–1638. arXiv : 1202,4961 . DOI : 10.1093 / comjnl / bxt070 .

[17] «Слайды курса еврейского университета» (PDF) .

[18] Роберт Uzgalis. «Библиотека хеш-функций» . 1996 г.

[19] Канковск, Питер. «Хеш-функции: эмпирическое сравнение» .

[20] Йигит, Озан. «Строковые хеш-функции» .

[21] Керниган; Ричи (1988). «6». Язык программирования C (2-е изд.). С. 118 . ISBN 0-13-110362-8.CS1 maint: несколько имен: список авторов ( ссылка )

[22] «Строка (Java Platform SE 6)» . docs.oracle.com . Проверено 10 июня 2015 .

[1]

Универсальное хеширование

Вступление

Математические гарантии

Конструкции

Хеширование целых чисел

Избегайте модульной арифметики

Хеширование векторов

Хеширование строк

Избегайте модульной арифметики

Смотрите также

Рекомендации

дальнейшее чтение

Внешние ссылки