Связь между биномиальными и бета-распределениями

27

Я больше программист, чем статистик, поэтому я надеюсь, что этот вопрос не слишком наивен.

Это происходит при выполнении программ сэмплирования в случайное время. Если я возьму N = 10 случайных выборок состояния программы, я смогу увидеть выполнение функции Foo, например, на I = 3 из этих выборок. Меня интересует, что это говорит мне о фактической доле времени F, когда Foo выполняется.

Я понимаю, что я биномиально распределен со средним F * N. Я также знаю, что, учитывая I и N, F следует бета-версии. На самом деле я проверил программой связь между этими двумя дистрибутивами, которая

cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1

Проблема в том, что у меня нет интуитивного чувства отношений. Я не могу «представить», почему это работает.

РЕДАКТИРОВАТЬ: Все ответы были сложные, особенно @ whuber, которые мне все еще нужно ухватиться, но наведение порядка статистики было очень полезно. Тем не менее, я понял, что должен был задать более простой вопрос: каково распределение F для I и N? Все отметили, что это Бета, которую я знал. Я наконец понял из Википедии ( Conjugate prior ), что это, похоже, так Beta(I+1, N-I+1). После изучения с помощью программы, это, кажется, правильный ответ. Итак, я хотел бы знать, если я не прав. И я до сих пор не понимаю, как соотносятся два файла cdf, показанных выше, почему они составляют 1 и имеют ли они какое-либо отношение к тому, что я действительно хотел знать.

binomial beta-binomial beta-distribution

— Майк Данлавей
источник

Если «то, что вы на самом деле хотели знать» - это «фактическая доля времени, в течение которого Foo выполняется», то вы спрашиваете о биномиальном доверительном интервале или (байесовском) биномиальном вероятном интервале.

— whuber

@whuber: Ну, я использовал метод случайной паузы для настройки производительности более 3 десятилетий, и некоторые другие люди тоже обнаружили это. Я сказал людям, что если какое-либо условие выполняется на 2 или более случайных выборках, то удаление этого сэкономит значительную долю времени. Насколько хороша фраза - это то, о чем я пытался сказать прямо, предполагая, что мы не знаем байесовский априор. Вот общее пламя: stackoverflow.com/questions/375913/… и stackoverflow.com/questions/1777556/alternatives-to-gprof/…

— Майк Данлавей

1

Хорошая идея. Статистическое допущение состоит в том, что прерывание не зависит от состояния выполнения, что является разумной гипотезой. Бином доверительный интервал является хорошим инструментом для использования для представления неопределенности. (Это также может быть откровением: в вашей ситуации 3/10 симметричный двусторонний 95% -й доверительный интервал для истинной вероятности равен [6,7%, 65,2%]. В ситуации 2/10 интервал равен [2,5 %, 55,6%]. Это широкие диапазоны! Даже с 2/3 нижний предел все еще составляет менее 10%. Урок здесь заключается в том, что что-то довольно редкое может произойти дважды.)

— whuber

@whuber: Спасибо. Вы правы. Что-то более полезное - ожидаемая стоимость. Что касается априорных ситуаций, я отмечаю, что если вы видите что-то только один раз, это ничего вам не скажет, если вы не узнаете, что программа находится в бесконечном (или чрезвычайно длинном) цикле.

— Майк Данлавей

Я думаю, что все ответы и комментарии, безусловно, были поучительными и правильными, но никто действительно не затронул интересное равенство, которое @MikeDunlavey поставил в своем первоначальном посте. Это равенство можно найти в бета-википедии en.wikipedia.org/wiki/Beta_function#Incomplete_beta_function, но не дается описание того, почему это так, просто оно указано как свойство.

— Бдеонович

27

Рассмотрим статистику порядка для независимых розыгрышей из равномерного распределения. Поскольку статистика порядка имеет бета-распределения , вероятность того, что не превышает , определяется бета-интегралом $x_{[0]} \le x_{[1]} \le \cdots \le x_{[n]}$ $n+1$ $x_{[k]}$ $p$

Pr [x_{[k]} \leq p] = \frac{1}{B (k + 1, n - k + 1)} \int_{0}^{p} x^{k} (1 - x)^{n - k} d x .

$\Pr[x_{[k]} \le p] = \frac{1}{B(k+1, n-k+1)} \int_0^p{x^k(1-x)^{n-k}dx}.$

(Почему это так? Вот нестрогая, но запоминающаяся демонстрация. Вероятность того, что лежит между и - это вероятность того, что из равномерных значений, из них лежат между и по крайней мере один из них лежит между и , а остальные лежат между и К первому порядку в бесконечно малом $x_{[k]}$ $p$ $p + dp$ $n+1$ $k$ $0$ $p$ $p$ $p + dp$ $p + dp$ $1$ $dp$ нам нужно только рассмотреть случай, когда ровно одно значение (а именно, само ) лежит между и и, следовательно, значения превышают . Поскольку все значения независимы и равномерны, эта вероятность пропорциональна . Для первого порядка по это равно $x_{[k]}$ $p$ $p + dp$ $n - k$ $p + dp$ $p^k (dp) (1 - p - dp)^{n-k}$ $dp$ , именно подынтегральное выражение бета-распределения. Термин $p^k(1-p)^{n-k}dp$ может быть вычислено непосредственно из этого аргумента как множительный коэффициент $\frac{1}{B(k+1, n-k+1)}$ или выводится косвенно как нормализующая константа интеграла.) ${n+1}\choose{k,1, n-k}$

По определению, событие является то , что значение не превышает . Эквивалентно, по крайней мере, значений не превышает : это простое (и я надеюсь, очевидное) утверждение обеспечивает искомую интуицию. Вероятность эквивалентного утверждения задается биномиальным распределением, $x_{[k]} \le p$ $k+1^\text{st}$ $p$ $k+1$ $p$

Pr [at least k + 1 of the x_{i} \leq p] = \sum_{j = k + 1}^{n + 1} (\binom{n + 1}{j}) p^{j} (1 - p)^{n + 1 - j} .

$\Pr[\text{at least }k+1\text{ of the }x_i \le p] = \sum_{j=k+1}^{n+1}{{n+1}\choose{j}} p^j (1-p)^{n+1-j}.$

Итак , бета-интеграл разбивает вычисление события на серию вычислений: нахождение как минимум значений в диапазоне , вероятность которого мы обычно вычисляем с помощью биномиального cdf, разбивается на взаимно исключительные случаи, когда ровно значений находятся в диапазоне а 1 значение находится в диапазоне для всех возможных , $k+1$ $[0, p]$ $k$ $[0, x]$ $[x, x+dx]$ $x$ $0 \le x \lt p$ и бесконечно малая длина. Суммирование по всем таким «окнам» Е. Интегрированию, должно давать такую же вероятность, что и биномиальный cdf. $dx$ $[x, x+dx]$

альтернативный текст

— Whuber
источник

Я ценю усилия. Мне придется по-настоящему изучить это, потому что это не мой "родной язык". Кроме того, я вижу много знаков доллара и форматирования. Есть ли что-то, о чем я не знаю, из-за чего это выглядит как настоящая математика?

— Майк Данлавей

Что произошло? Внезапно появилась математика, и печатание здесь стало очень медленным.

— Майк Данлавей

@Mike См. Meta.stats.stackexchange.com/q/218/919 .

— whuber

Я пересмотрел вопрос, если вы хотите посмотреть. Спасибо.

— Майк Данлавей

1

Уже немного поздно, но у меня наконец-то появилось время сесть и воссоздать твой аргумент. Ключ был "коэффициент многочлена". Я пытался выяснить это, используя простые старые биномиальные коэффициенты, и все сводилось на нет. Еще раз спасибо за хороший ответ.

— Майк Данлавей

12

Посмотрите на PDF Binomial как функцию : $x$ и pdf бета-функции как функция:

f (x) = (\binom{n}{x}) p^{x} (1 - p)^{n - x}

$f(x) = {n\choose{x}}p^{x}(1-p)^{n-x}$

p

$p$

Вы, вероятно, можете видеть, что при соответствующем (целочисленном) выборе для

и

они совпадают. Насколько я могу судить, это все, что есть в этом отношении: способвхода

в биномиальный pdf просто называется бета-распределением.

g (p) = \frac{Γ (a + b)}{Γ (a) Γ (b)} p^{a - 1} (1 - p)^{b - 1}

$g(p)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}p^{a-1}(1-p)^{b-1}$

a

$a$

b

$b$

p

$p$

— Анико
источник

Я знаю, что они выглядят почти одинаково, но если я заменю y на nx, и если я возьму бета-версию PDF и заменю x на a-1, а y на b-1, я получу дополнительный коэффициент (x + y + 1), или n + 1. т.е. (x + y + 1)! / x! / y! * p ^ x * q ^ y. Этого, кажется, достаточно, чтобы сбить меня с толку.

— Майк Данлавей

1

Возможно, кто-то ответит полным ответом, но в «интуитивном» объяснении мы всегда можем отмахнуться от констант (например,

), которые не зависят от представляющих интерес переменных (

и

), но необходимы для сделать PDF добавить / интегрировать в 1. Не стесняйтесь заменить знаки «равенства» на «пропорционально» знаки.

n + 1

$n+1$

x

$x$

p

$p$

— Анико

Хорошая точка зрения. Я думаю, что я все ближе к пониманию. Я все еще пытаюсь сказать, что x говорит вам о p-распределении, и почему эти два

— cdf-файла

1

Я придерживаюсь другого взгляда на «интуитивные» объяснения. В некоторых случаях мы не слишком заботимся о константах, но в этом случае суть в том, чтобы понять, почему появляется n + 1, а не n. Если вы этого не понимаете, тогда ваша «интуиция» неверна.

— whuber

Я пересмотрел вопрос, если вы хотите посмотреть. Спасибо.

— Майк Данлавей

5

Как вы заметили, бета-распределение описывает распределение параметра пробной вероятности , в то время как биномиальное распределение описывает распределение параметра . Переписывая свой вопрос, вы спросили, почему $F$ $I$

P (F \leq \frac{i + 1}{n}) + P (I \leq f n - 1) = 1

$P(F \le \frac {i+1} n)+P(I \le fn-1)=1$

P (F n \leq i + 1) + P (I + 1 \leq f n) = 1

$P(Fn \le i+1)+P(I+1 \le fn)=1$

P (F n \leq i + 1) = P (f n < I + 1)

$P(Fn \le i+1)=P(fn<I+1)$ То есть вероятность того, что наблюдение плюс один больше, чем ожидание наблюдения, равна вероятности того, что наблюдение плюс один больше, чем ожидание наблюдения.

Я признаю, что это может не помочь интуитивно понять первоначальную формулировку проблемы, но, возможно, это поможет, по крайней мере, увидеть, как эти два распределения используют одну и ту же базовую модель повторных испытаний Бернулли для описания поведения различных параметров.

— sesqu
источник

Я ценю ваше мнение об этом. Все ответы помогают мне подумать над вопросом и, возможно, лучше понять, что я спрашиваю.

— Майк Данлавей

Я пересмотрел вопрос, если вы хотите посмотреть. Спасибо.

— Майк Данлавей

1

Относительно вашей ревизии: Да,

F \sim B e t a (I + 1, N - I + 1)

$F\sim Beta(I+1,N-I+1)$ До тех пор, пока ваши интервалы выборки достаточно велики, чтобы каждое наблюдение было независимым и одинаково распределенным. Обратите внимание, что если вы хотите быть байесовским по этому вопросу и указать неравномерное предварительное распределение для ожидаемой фактической пропорции, вы можете добавить что-то еще к обоим параметрам.

— Sesqu

@sesqu, could your answer be somehow related to my question here: stats.stackexchange.com/questions/147978/…? I would appreciate your thoughts on it.

— Vicent

1

In Bayesian land, the Beta distribution is the conjugate prior for the p parameter of the Binomial distribution.

— Ian Fiske
источник

2

Yes, but why is this the case?

— vonjd

1

Can't comment on other answers, so i have to create my own answer.

Posterior = C * Likelihood * Prior (C is a constant that makes Posterior integrated to 1)

Given a model that uses Binomial distribution for likelihood, and Beta distribution for Prior. The product of the two which generates the Posterior is also a Beta distribution. Since the Prior and Posterior are both Beta, and thus they are conjugate distributions. the Prior (a Beta) is called conjugate prior for the likelihood (a Binomial). For example, if you multiply a Beta with a Normal, the Posterior is no longer a Beta. In summary, Beta and Binomial are two distributions that are frequently used in Bayesian inference. Beta is Conjugate Prior of Binomial, but the two distributions are not a subset or superset of the other.

The key idea of Bayesian inference is we are treating the parameter p as a random variable that ranges from [0,1] which is contrary to frequentist inference approach where we are treating parameter p as fixed. If you look closely to the properties of Beta distribution, you will see its Mean and Mode are solely determined by $\alpha$ and $\beta$ irrelevant to the parameter p . This, coupled with its flexibility, is why Beta is usually used as a Prior.

— John Li
источник

1

Summary: It is often said that Beta distribution is a distribution on distributions! But what is means?

It essentially means that you may fix $n,k$ and think of $\mathbb P[Bin(n,p)\geqslant k]$ as a function of $p$ . What the calculation below says is that the value of $\mathbb P[Bin(n,p)\geqslant k]$ increases from $0$ to $1$ when you tune $p$ from $0$ to $1$ . The increasing rate at each $p$ is exactly $\beta(k,n-k+1)$ at that $p$ .

Let $Bin(n,p)$ denote a Binomial random variable with $n$ samples and the probability of success $p$ . Using basic algebra we have

\frac{d}{d p} P [B i n (n, p) = i] = n (P [B i n (n - 1, p) = i - 1] - P [B i n (n - 1, p) = i]) .

$\frac d{dp}\mathbb P[Bin(n,p)=i]=n\Big(\mathbb P[Bin(n-1,p)=i-1]-\mathbb P[Bin(n-1,p)=i]\Big).$

It has also some nice combinatorial proof, think of it as an exercise!

So, we have:

\frac{d}{d p} P [B i n (n, p) ⩾ k] = \frac{d}{d p} \sum_{i = k}^{n} P [B i n (n, p) = i] = n (\sum_{i = k}^{n} P [B i n (n - 1, p) = i - 1] - P [B i n (n - 1, p) = i])

$\frac d{dp}\mathbb P[Bin(n,p)\geqslant k]=\frac d{dp}\sum_{i=k}^{n}\mathbb P[Bin(n,p)=i]=n\Big(\sum_{i=k}^{n}\mathbb P[Bin(n-1,p)=i-1]-\mathbb P[Bin(n-1,p)=i]\Big)$ which is a telescoping series and can be simplified as

\frac{d}{d p} P [B i n (n, p) ⩾ k] = n P [B i n (n - 1, p) = k - 1] = \frac{n!}{(k - 1)! (n - k)!} p^{k - 1} (1 - p)^{n - k} = β (k, n - k + 1) .

$\frac d{dp}\mathbb P[Bin(n,p)\geqslant k]=n\mathbb P[Bin(n-1,p)=k-1]=\frac{n!}{(k-1)!(n-k)!}p^{k-1}(1-p)^{n-k}=\beta(k,n-k+1).$

Remark To see an interactive version of the plot look at this. You may download the notebook or just use the Binder link.

— MR_BD
источник