Вау, отличный вопрос! Позвольте мне попытаться объяснить решение. Это займет три четких шага.
Первое, на что следует обратить внимание, это то, что энтропия больше ориентирована на среднее количество битов, необходимых для каждого рисования, а не на максимальное количество битов, которое необходимо.
В вашей процедуре выборки максимальное количество случайных битов, необходимых для каждого отрисовки, составляет битов, но среднее количество необходимых битов составляет 2 бита (среднее геометрического распределения с ) - это потому, что существует Вероятность что вам нужен только 1 бит (если первый бит оказывается равным 1), вероятность что вам нужно только 2 бита (если первые два бита оказываются равным 01), вероятность того, что вам нужно только 3 бита (если первые три бита окажутся 001), и так далее.Np=1/21/21/41/8
Второе, на что следует обратить внимание, - это то, что энтропия на самом деле не фиксирует среднее количество бит, необходимое для одного розыгрыша. Вместо этого, энтропия захватывает амортизируется число бит , необходимых для выборки IID извлекает из этого распределения. Предположим, нам нужно бит для выборки отрисовок; тогда энтропия является пределом как .mf(m)mf(m)/mm→∞
В - третьих, следует отметить, что, с этим распределением, вы можете попробовать н.о.р. рисует с меньшим количеством битов , чем это необходимо для повторного образца одной ничьей. Предположим, вы наивно решили нарисовать одну выборку (в среднем на 2 случайных бита), затем нарисовать другую выборку (используя в среднем еще 2 случайных бита) и т. Д., Пока не повторите это раз. Это потребует в среднем около случайных битов.mm2m
Но оказывается, что есть способ сэмплировать из дро с использованием менее 2 битов. В это трудно поверить, но это правда!m2m
Позвольте мне дать вам интуицию. Предположим, вы записали результат выборки розыгрышей, где действительно велико. Тогда результат может быть указан в виде битной строки. Эта битная строка будет в основном 0, с несколькими 1: в частности, в среднем она будет иметь около 1 (может быть больше или меньше, но если достаточно велико, обычно номер будет близок к этому). Длина промежутков между единицами случайна, но, как правило, будет где-то расплывчато в окрестности (легко может быть вдвое больше или вдвое больше или даже больше, но такого порядка). Конечно, вместо записи всегоmmmmm/2Nm2Nm-битная строка, мы могли бы записать ее более кратко, записав список длин пропусков, который несет всю ту же информацию, в более сжатом формате. Насколько более кратким? Ну, нам обычно потребуется около бит для представления длины каждого промежутка; и будет около пробелов; поэтому нам нужно всего около битов (может быть немного больше, может быть немного меньше, но если достаточно велико, оно обычно будет близко к этому). Это намного короче, чем строка бита.Nm/2NmN/2Nmm
И если есть способ записать строку так кратко, возможно, это не будет слишком удивительно, если это означает, что есть способ генерировать строку с числом случайных битов, сопоставимых с длиной строки. В частности, вы случайным образом генерируете длину каждого разрыва; это выборка из геометрического распределения с , и это можно сделать с примерно случайных битов в среднем (не ). Вам понадобится примерно iid-отрисовок из этого геометрического распределения, так что вам понадобится всего примерно случайных битов. (Это может быть небольшой постоянный коэффициент больше, но не слишком большой.) И обратите внимание, что это намного меньше, чем бит.p=1/2N∼N2Nm/2N∼Nm/2N2m
Таким образом, мы можем попробовать н.о.р. розыгрышей от вашего дистрибутива, используя только случайных битов (примерно). Напомним, что энтропия равна . Таким образом , это означает , что вы должны ожидать , что энтропия будет (примерно) . Это немного, потому что приведенный выше расчет был отрывочным и грубым - но, надеюсь, он даст вам некоторое представление о том, почему энтропия такая, какая она есть, и почему все последовательно и разумно.mf(m)∼Nm/2Nlimm→∞f(m)/mN/2N