Функция, которая распространяет ввод

Я хотел бы знать, существует ли функция $f$ от n-битных чисел до n-битных чисел, которая имеет следующие характеристики:

$f$ должно быть биективным
Оба $f$ и $f^{-1}$ должны быть вычислены довольно быстро
$f$ должен вернуть число, которое не имеет существенной корреляции с его вводом.

Обоснование таково:

Я хочу написать программу, которая работает с данными. Некоторая информация данных хранится в бинарном дереве поиска, где ключ поиска является символом алфавита. Со временем я добавляю дополнительные символы в алфавит. Новые символы просто получают следующий свободный номер. Следовательно, дерево всегда будет иметь небольшой уклон к более мелким ключам, что вызывает большую перебалансировку, чем я думаю, что это необходимо.

Моя идея состоит в том, чтобы искажать номера символов с помощью $f$ , чтобы они широко распространялись по всему диапазону $[0,2^{64}-1]$ . Поскольку номера символов имеют значение только во время ввода и вывода, что происходит только один раз, применение такой функции не должно быть слишком дорогим.

Я думал об одной итерации генератора случайных чисел Xorshift, но я не знаю, как отменить его, хотя теоретически это должно быть возможно.

Кто-нибудь знает такую функцию?
Это хорошая идея?

binary-trees hash binary-arithmetic

— FUZxxl
источник

Я не эксперт, но, возможно, вы можете использовать псевдослучайную перестановку (см., Например, шифр Фейстеля )

— Vor

Если вы по сути вычисляете хеш-функцию, почему бы не использовать хеширование?

— vonbrand

@vonbrand Хеширование необратимо. См. Требование № 2.

— FUZxxl

Почему это должно быть обратимо? Что плохого в том, чтобы сделать его обратимым при поиске?

— vonbrand

Вы можете сохранить (f (x), x) как ключи.

— adrianN

Ответы:

Вы можете использовать хеширование Фибоначчи , а именно

. $\qquad h_F(k) = k \cdot \frac{\sqrt{5} - 1}{2} - \left\lfloor k \cdot \frac{\sqrt{5} - 1}{2} \right\rfloor$

Для вы получите попарно различных чисел (примерно), равномерно распределенных в . Масштабируя до и округляя (вниз), вы получите примерно равномерное распределение чисел в этом интервале. $k=1,\dots,n$ $n$ $[0,1]$ $[1..M]$

Например, это масштабированные до (исходная последовательность слева, отсортированная справа): $h_F(1), \dots, h_F(200)$ $[0..10000]$

введите описание изображения здесь

Это пример того, что Кнут называет мультипликативным хешированием . Для размера слова компьютера, некоторое целое число относительно простого числа и количество необходимых адресов, мы используем $w$ $A$ $w$ $M$

$\qquad h(k) = \left\lfloor M \left( \bigl( k \cdot \frac{A}{w}\bigr) \mod 1 \right) \right\rfloor$

как функция хеширования. Сказанное следует с (убедитесь, что вы можете вычислить его с достаточной точностью). Хотя это также работает с любым другим иррациональным числом, кроме, это одно из двух чисел, которые приводят к «наиболее равномерно распределенным» числам. $A/w = \phi^{-1} = \frac{\sqrt{5}-1}{2}$ $\phi^{-1}$

Узнайте больше в книге «Искусство компьютерного программирования» , том 3 Дональда Кнута (глава 6.4 на стр. 513 во втором издании). В частности, вы поймете, почему полученные числа попарно различны (по крайней мере, если ) и как вычислить обратную функцию, если вы используете натуральное $n \ll M$ $A$ и вместо . $w$ $\phi^{-1}$

— Рафаэль
источник

Как эффективно рассчитать

f^{- 1}

$f^{-1}$

— 2013 г.

@frafl Я надеюсь, что мое редактирование несколько решит вашу проблему. Понятно, однако, что эти методы хеширования не предназначены для эффективной обратимости.

— Рафаэль

Да, это так, я буду голосовать, но я бы не рекомендовал это как принятый ответ.

— 2011 г.

Для битных входов эта функция работает: $k$

$\mathrm{hash}(n) = (n \bmod 2^{\lceil\frac{k}{2}\rceil})\cdot 2^{\lceil\frac{k}{2}\rceil} + n \,\mathrm{div}\, 2^{\lceil\frac{k}{2}\rceil}$

$\mathrm{hash}(\mathrm{hash}(n)) = n$ $\{n,m\}, n < m$ $\mathrm{hash}(m) < \mathrm{hash}(n)$ $\{1,\dots,2^{\lceil\frac{k}{2}\rceil}-1\}$

Ссылка: обратимая хеш-функция

— Реза
источник

Это выглядит просто и красиво. Я собираюсь проверить это.

— FUZxxl

1

$1$

ρ

$\rho$

это довольно понятно! для 64-битного (0x00000000FFFFFFFF) и вам следует сдвинуть (<<) 32 бит. Эта функция проста, практична и достаточно быстра на практике.

— Реза

x \in {1, \dots, 2^{32} - 1}

$x \in \{1,\dots,2^{32}-1\}$

2^{32} x

$2^{32}x$