1388

Какой алгоритм хеширования лучше всего подходит для уникальности и скорости? Примеры (хороших) применений включают хеш-словари.

Я знаю, что есть такие вещи, как SHA-256 и тому подобное, но эти алгоритмы предназначены для обеспечения безопасности , что обычно означает, что они медленнее, чем алгоритмы, которые менее уникальны . Я хочу, чтобы алгоритм хеширования был быстрым, но оставался достаточно уникальным, чтобы избежать коллизий.

algorithms hashing

— Earlz
источник

9

Для каких целей безопасность или другое?

— Orbling

19

@ Orbling, для реализации хеш-словаря. Таким образом, столкновения должны быть сведены к минимуму, но это не имеет цели безопасности вообще.

— Earlz

4

Обратите внимание, что вам нужно ожидать, по крайней мере, некоторых коллизий в вашей хэш-таблице, в противном случае таблица должна быть огромной, чтобы можно было обрабатывать даже относительно небольшое количество ключей ...

— Дин Хардинг,

19

Отличный пост! Не могли бы вы также проверить xxHash Янна Коллета (создатель или LZ4), который в два раза быстрее, чем Murmur? Домашняя страница: code.google.com/p/xxhash Дополнительная информация: fastcompression.blogspot.fr/2012/04/…

24

@zvrba Зависит от алгоритма. bcrypt разработан, чтобы быть медленным.

— Изката

2461

Я протестировал несколько разных алгоритмов, измеряя скорость и количество столкновений.

Я использовал три разных набора ключей:

Список из 216 553 английских слов (в нижнем регистре)
Числа "1"к "216553"(вспомните почтовые индексы, и как плохой хэш сломал msn.com )
216 553 «случайных» (то есть типа 4 uuid ) идентификатора GUID

Для каждого корпуса было зафиксировано количество столкновений и среднее время, проведенное за хешированием.

Я проверял:

DJB2
DJB2a (вариант с использованием, xorа не +)
FNV-1 (32-разрядная версия)
FNV-1a (32-разрядная версия)
SDBM
CRC32
Murmur2 (32-разрядная версия )
SuperFastHash

Результаты

Каждый результат содержит среднее время хеширования и количество столкновений.

Hash           Lowercase      Random UUID  Numbers
=============  =============  ===========  ==============
Murmur            145 ns      259 ns          92 ns
                    6 collis    5 collis       0 collis
FNV-1a            152 ns      504 ns          86 ns
                    4 collis    4 collis       0 collis
FNV-1             184 ns      730 ns          92 ns
                    1 collis    5 collis       0 collis▪
DBJ2a             158 ns      443 ns          91 ns
                    5 collis    6 collis       0 collis▪▪▪
DJB2              156 ns      437 ns          93 ns
                    7 collis    6 collis       0 collis▪▪▪
SDBM              148 ns      484 ns          90 ns
                    4 collis    6 collis       0 collis**
SuperFastHash     164 ns      344 ns         118 ns
                   85 collis    4 collis   18742 collis
CRC32             250 ns      946 ns         130 ns
                    2 collis    0 collis       0 collis
LoseLose          338 ns        -             -
               215178 collis

Примечания :

Алгоритм LoseLose (где хэш = хэш - символ +) действительно ужасно . Все сталкивается в те же 1375 ведер
SuperFastHash быстр, с вещами, выглядящими довольно рассеянными; Боже мой, число столкновений. Я надеюсь, что парень, который портировал это, понял что-то не так; это довольно плохо
CRC32 довольно хорош . Медленнее, и таблица поиска 1k

Действительно ли случаются столкновения?

Да. Я начал писать свою тестовую программу, чтобы увидеть, действительно ли случаются коллизии хешей - и это не просто теоретическая конструкция. Они действительно случаются

Столкновения ФНВ-1

creamwove сталкивается с quists

Столкновения ФНВ-1а

costarring сталкивается с liquid
declinate сталкивается с macallums
altarage сталкивается с zinke
altarages сталкивается с zinkes

Murmur2 столкновения

cataract сталкивается с periti
roquette сталкивается с skivie
shawl сталкивается с stormbound
dowlases сталкивается с tramontane
cricketings сталкивается с twanger
longans сталкивается с whigs

DJB2 столкновения

hetairas сталкивается с mentioner
heliotropes сталкивается с neurospora
depravement сталкивается с serafins
stylist сталкивается с subgenera
joyful сталкивается с synaphea
redescribed сталкивается с urites
dram сталкивается с vivency

DJB2a столкновения

haggadot сталкивается с loathsomenesses
adorablenesses сталкивается с rentability
playwright сталкивается с snush
playwrighting сталкивается с snushing
treponematoses сталкивается с waterbeds

CRC32 столкновения

codding сталкивается с gnu
exhibiters сталкивается с schlager

SuperFastHash столкновения

dahabiah сталкивается с drapability
encharm сталкивается с enclave
grahams сталкивается с gramary
... отсечь 79 столкновений ...
night сталкивается с vigil
nights сталкивается с vigils
finks сталкивается с vinic

Randomnessification

Другая субъективная мера - насколько случайным образом распределены хэши. Отображение полученных HashTables показывает, насколько равномерно распределяются данные. Все хеш-функции показывают хорошее распределение при линейном отображении таблицы: