Бета-раздача при подбрасывании монеты

Байесовская книга Крушке гласит, что использование бета-дистрибутива для подбрасывания монеты

Например, если у нас нет никаких предварительных знаний, кроме знания о том, что у монеты есть сторона головы и сторона хвоста, это равносильно тому, что ранее наблюдались одна голова и один хвост, что соответствует a = 1 и b = 1.

Почему никакая информация не была бы равносильна тому, что я видел одну голову и один хвост - 0 голов и 0 хвостов мне кажется более естественным.

probability bayesian beta-distribution

— Хатшепсут
источник

(+1) Цитата вводит в заблуждение, потому что она предлагает читателю приравнять два совершенно разных смысла слова «наблюдать». Здесь используется смысл осмотра самой монеты - фактически это означает, что вы понимаете экспериментальную установку. Но вывод о том, что из этого следует, что зависит от повторного толкования «наблюдения» в другом смысле: дважды запустить эксперимент, в течение которого один результат был головой, а другой - хвостом. Этот вид логической ловкости рук является интеллектуальным отговоркой; это только заставляет байесовские методы казаться произвольными и логически скользкими, что очень жаль.

a = b = 1

$a=b=1$

— whuber

Цитата неверна: не существует оправдания для априорной бета-версии (1, 1).

— Нил Г

Можно так же легко утверждать, что это информация одного наблюдения - половина головы / половина хвоста.

— Glen_b

Пожалуйста, помните о предназначении этого отрывка в книге. Предполагается, что это будет простое интуитивное обоснование для начинающих прикладных пользователей , очевидно, не математический аргумент и определенно не утверждение, что бета (1,1) является лучшим или единственным расплывчатым приоритетом. В другом месте книги я стараюсь показать, что скромные вариации расплывчатых априорных значений не имеют существенных различий в заднем, когда имеется умеренно большой объем данных. (За исключением, конечно, байесовских факторов, которые очень чувствительны к предыдущим!) В других работах я ранее обсуждал Холдейн.

— Джон К. Крушке

Цитата - это «логическая ловкость рук» (великолепное выражение!), Как отмечает @whuber в комментариях к ОП. Единственное, что мы действительно можем сказать, увидев, что у монеты есть голова и хвост, это то, что оба события «голова» и «хвост» не являются невозможными. Таким образом, мы могли бы отказаться от дискретного априора, который помещает всю массу вероятности в «голову» или «хвост». Но это само по себе не ведет к единому априорному вопросу: вопрос гораздо более тонкий. Давайте прежде всего подведем итоги. Мы рассматриваем бета-биноминальную модель сопряжения для байесовского вывода вероятности головок монеты, учитывая независимых и одинаково распределенных (условно на ) бросков монеты. $\theta$ $n$ $\theta$ $p(\theta|x)$ когда мы наблюдаем голов в бросках: $x$ $n$

p (θ | x) = B e t a (x + α, n - x + β)

$p(\theta|x) = Beta(x+\alpha, n-x+\beta)$

мы можем сказать, что и играют роль «предыдущего числа голов» и «предшествующего числа хвостов» (псевдотриалов), а можно интерпретировать как эффективный размер выборки. Мы могли бы также прийти к этой интерпретации, используя известное выражение для среднего значения в качестве средневзвешенного значения предыдущего среднего значения и выборочного среднего значения . $\alpha$ $\beta$ $\alpha+\beta$ $\frac{\alpha}{\alpha+\beta}$ $\frac{x}{n}$

Глядя на , мы можем сделать два соображения: $p(\theta|x)$

поскольку у нас нет предварительных знаний о (максимальное незнание), мы интуитивно ожидаем, что эффективный размер выборки будет "маленьким". Если бы оно было большим, то предшествующее будет включать в себя довольно много знаний. Другой способ увидеть это - заметить, что если и являются «маленькими» по отношению к и , апостериорная вероятность не будет сильно зависеть от нашего предшествующего уровня, потому что и . Мы ожидаем, что априор, который не включает в себя много знаний, должен быстро стать неактуальным в свете некоторых данных. $\theta$ $\alpha+\beta$ $\alpha$ $\beta$ $x$ $n-x$ $x+\alpha\approx x$ $n-x+\beta\approx n-x$
Кроме того, поскольку является предыдущим средним значением, и у нас нет предварительных знаний о распределении , мы ожидаем, что . Это аргумент симметрии - если мы не знаем ничего лучше, мы не ожидаем, что априори, что распределение смещено к 0 или к 1. Бета-распределение $\mu_{prior}=\frac{\alpha}{\alpha+\beta}$ $\theta$ $\mu_{prior}=0.5$

$е (θ | α, β) знак равно \frac{Γ (α + β)}{Γ (α) + Γ (β)} θ^{α - 1} (1 - θ)^{β - 1}$ $f(\theta|\alpha,\beta)=\frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) +\Gamma(\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$
Это выражение симметрично только вокруг если . $\theta=0.5$ $\alpha=\beta$

По этим двум причинам, независимо от того, какой приоритет (принадлежащий семейству Бета - помните, сопряженная модель!) Мы выбираем для использования, мы интуитивно ожидаем, что и «маленькие». Мы можем видеть, что все три часто используемых неинформативных априора для бета-биномиальной модели разделяют эти черты, но в остальном они совершенно разные. И это очевидно: никакое предшествующее знание, или «максимальное невежество», не является научным определением, поэтому, какой тип априора выражает «максимальное невежество», то есть то, что является неинформативным априором, зависит от того, что вы на самом деле имеете в виду как «максимум» невежество". $\alpha=\beta=c$ $c$

мы могли бы выбрать априор, который говорит, что все значения для равновероятны, так как мы не знаем ничего лучше. Опять же, аргумент симметрии. Это соответствует : $\theta$ $\alpha=\beta=1$

$е (θ | 1, 1) знак равно \frac{Γ (2)}{2 Γ (1)} θ^{0} (1 - θ)^{0} знак равно 1$ $f(\theta|1,1)=\frac{\Gamma(2)}{2\Gamma(1)}\theta^{0}(1-\theta)^{0}=1$
для , т. е. единообразного априора, использованного Крушке. Более формально, выписав выражение для дифференциальной энтропии бета-распределения, вы увидите, что оно максимизируется при . Теперь энтропия часто интерпретируется как мера «количества информации», переносимого распределением: более высокая энтропия соответствует меньшему количеству информации. Таким образом, вы можете использовать этот принцип максимальной энтропии, чтобы сказать, что внутри семейства Бета априор, который содержит меньше информации (максимальное невежество), является этим единообразным априором. $\theta\in[0,1]$ $\alpha=\beta=1$
Вы можете выбрать другую точку зрения, используемую ОП, и сказать, что никакая информация не соответствует отсутствию головы и хвоста, т. Е.

$α знак равно β знак равно 0 \Rightarrow π (θ) α θ^{- 1} (1 - θ)^{- 1}$ $\alpha=\beta=0 \Rightarrow \pi(\theta) \propto \theta^{-1}(1-\theta)^{-1}$
Предшествующее, которое мы получаем таким способом, называется Приоритетом Холдейна . Функция имеет небольшую проблему - интеграл по бесконечен, т. Е. Независимо от того, какая нормирующая постоянная, она не может быть превращается в правильный PDF. На самом деле, априор Холдейна - это правильный pmf , который ставит вероятность 0,5 на , 0,5 на и вероятность 0 на все другие значения для . Однако давайте не будем увлекаться - для непрерывного параметра априорные значения, которые не соответствуют надлежащему pdf, называются неправильными априорными значениями. $\theta^{-1}(1-\theta)^{-1}$ $I=[0, 1]$ $\theta=0$ $\theta=1$ $\theta$ $\theta$ , Поскольку, как отмечалось ранее, все, что имеет значение для байесовского вывода, это заднее распределение, неправильные априорные значения допустимы, если заднее распределение является правильным. В случае с Холдейном мы можем доказать, что задний pdf верен, если наша выборка содержит хотя бы один успех и один провал. Таким образом, мы можем использовать Haldane только тогда, когда мы наблюдаем по крайней мере одну голову и один хвост.

В другом смысле априор Холдейна может считаться неинформативным: среднее значение апостериорного распределения теперь равно , то есть частоту выборки головок, которая является частой оценкой MLE для биномиальной модели задачи подбрасывания монеты. Кроме того, вероятные интервалы для соответствуют доверительным интервалам Вальда. Поскольку методы частых не определяют априор, можно сказать, что априор Холдейна неинформативен или соответствует нулевому априорному знанию, потому что он приводит к «тому же» выводу, который сделал бы частик. $\frac{\alpha + x}{\alpha + \beta + n}=\frac{x}{n}$ $\theta$ $\theta$
Наконец, вы можете использовать априор, который не зависит от параметризации задачи, т. Е. Априор Джеффриса, который для бета-биномиальной модели соответствует

$α знак равно β знак равно \frac{1}{2} \Rightarrow π (θ) α θ^{- \frac{1}{2}} (1 - θ)^{- \frac{1}{2}}$ $\alpha=\beta=\frac{1}{2} \Rightarrow \pi(\theta) \propto \theta^{-\frac{1}{2}}(1-\theta)^{-\frac{1}{2}}$
таким образом, с эффективным размером выборки 1. Преимущество Джеффриса состоит в том, что он инвариантен при репараметризации пространства параметров. Например, единообразный априор присваивает равные вероятности всем значениям , вероятности возникновения события «голова». Однако вы можете решить параметризовать эту модель в терминах log-odds события "head" вместо . Что такое априор, который выражает «максимальное незнание» в терминах лог-шансов, т. Е. Который говорит, что все возможные лог-шансы для события «голова» равновероятны? Это Холдейн, как показано в этом (немного загадочном) ответе $\theta$ $\lambda=log(\frac{\theta}{1-\theta})$ $\theta$ , Вместо этого Джеффрис инвариантен относительно всех изменений метрики. Джеффрис заявил, что априор, у которого нет этого свойства, в некотором роде информативен, поскольку содержит информацию о метрике, которую вы использовали для параметризации проблемы. Его предшественник не

Подводя итог, можно сказать, что в бета-биномиальной модели не существует однозначного выбора неинформативного априора. То, что вы выбираете, зависит от того, что вы подразумеваете под нулевым предварительным знанием, и от целей вашего анализа.

— DeltaIV
источник

Это явно неверно. Наблюдение за 1 главой и 1 хвостом означает, что (невозможно получить монету со всеми головами) и (невозможно получить монету со всеми хвостами). Равномерное распределение не соответствует этому. Что соответствует, бета (2,2). Из байесовского решения задачи о подбрасывании монет с помощью Лапласа (т.е. равномерного) до апостериорная вероятность равна . $p(\theta=0)=0$ $p(\theta=1)=0$ $\theta$ $p(\theta)={\rm Beta}(h+1,(N-h)+1)$

— user23856
источник

Мне трудно понять ваш ответ.

— Майкл Р. Черник,

Ваш вывод о том, что «равномерное распределение не соответствует этому» неверен. Это путает плотность (что и подразумевается под « ») с вероятностью . Равномерное (непрерывное) распределение присваивает нулевую вероятность любому атомному событию, такому как или .

p

$p$

θ = 0

$\theta=0$

θ = 1

$\theta=1$

— whuber