Традиционный анализ в порядке. «Традиционный» анализ, если он правильно объяснен, является приближением; он основан на расчете ожидаемого количества ячеек, равных 0/1, когда вы хэшируете ключи в фильтре, а затем на анализе, как если бы это было действительное число. Дело в том, что количество ячеек, которые равны 0 (или 1), тесно сконцентрировано вокруг их ожидания, поэтому это хорошее приближение. Это было хорошо известно, и, думаю, его можно найти даже в моей обзорной статье с Андреем Бродером.
В этой статье говорится, что на самом деле производительность фильтра Блума является случайной величиной (соответствующей фактической доле записей 0/1), и если по какой-то причине вы хотите точно рассчитать эту производительность, вам нужно выполнить комбинаторику. Для более мелких фильтров вы увидите, возможно, нетривиальную разницу.
Я разговаривал с авторами этой статьи. Их анализ все хорошо и хорошо (хотя я бы сказал, что он не глубокий или новый); их мотивация, согласно которой «традиционный анализ ошибочен», я думаю, была преувеличена.