Цитата - это «логическая ловкость рук» (великолепное выражение!), Как отмечает @whuber в комментариях к ОП. Единственное, что мы действительно можем сказать, увидев, что у монеты есть голова и хвост, это то, что оба события «голова» и «хвост» не являются невозможными. Таким образом, мы могли бы отказаться от дискретного априора, который помещает всю массу вероятности в «голову» или «хвост». Но это само по себе не ведет к единому априорному вопросу: вопрос гораздо более тонкий. Давайте прежде всего подведем итоги. Мы рассматриваем бета-биноминальную модель сопряжения для байесовского вывода вероятности головок монеты, учитывая независимых и одинаково распределенных (условно на ) бросков монеты.n θ p ( θ | x ) x nθNθp ( θ | x )когда мы наблюдаем голов в бросках:ИксN
p ( θ | x ) = B e t a ( x + α , n - x + β)
мы можем сказать, что и играют роль «предыдущего числа голов» и «предшествующего числа хвостов» (псевдотриалов), а можно интерпретировать как эффективный размер выборки. Мы могли бы также прийти к этой интерпретации, используя известное выражение для среднего значения в качестве средневзвешенного значения предыдущего среднего значения и выборочного среднего значения .β α + β ααβα + β xαα + βИксN
Глядя на , мы можем сделать два соображения:p ( θ | x )
- поскольку у нас нет предварительных знаний о (максимальное незнание), мы интуитивно ожидаем, что эффективный размер выборки будет "маленьким". Если бы оно было большим, то предшествующее будет включать в себя довольно много знаний. Другой способ увидеть это - заметить, что если и являются «маленькими» по отношению к и , апостериорная вероятность не будет сильно зависеть от нашего предшествующего уровня, потому что
и . Мы ожидаем, что априор, который не включает в себя много знаний, должен быстро стать неактуальным в свете некоторых данных.α + β α β x n - x x + α ≈ x n - x + β ≈ n - xθα + βαβИксн - хx + α ≈ xn - x + β≈ n - x
Кроме того, поскольку является предыдущим средним значением, и у нас нет предварительных знаний о распределении
, мы ожидаем, что . Это аргумент симметрии - если мы не знаем ничего лучше, мы не ожидаем, что априори, что распределение смещено к 0 или к 1. Бета-распределение θμprior=0,5μр г я о г= αα + βθμр г я о г= 0,5
е( θ | α , β) = Γ ( α + β)Γ ( α ) + Γ ( β)θα - 1( 1 - θ )β- 1
Это выражение симметрично только вокруг если
.α = βθ = 0,5α = β
По этим двум причинам, независимо от того, какой приоритет (принадлежащий семейству Бета - помните, сопряженная модель!) Мы выбираем для использования, мы интуитивно ожидаем, что и «маленькие». Мы можем видеть, что все три часто используемых неинформативных априора для бета-биномиальной модели разделяют эти черты, но в остальном они совершенно разные. И это очевидно: никакое предшествующее знание, или «максимальное невежество», не является научным определением, поэтому, какой тип априора выражает «максимальное невежество», то есть то, что является неинформативным априором, зависит от того, что вы на самом деле имеете в виду как «максимум» невежество".cα = β= сс
мы могли бы выбрать априор, который говорит, что все значения для равновероятны, так как мы не знаем ничего лучше. Опять же, аргумент симметрии. Это соответствует :α = β = 1θα = β= 1
е( θ | 1 , 1 ) = Γ ( 2 )2 Γ ( 1 )θ0( 1 - θ )0= 1
для , т. е. единообразного априора, использованного Крушке. Более формально, выписав выражение для дифференциальной энтропии бета-распределения, вы увидите, что оно максимизируется при
. Теперь энтропия часто интерпретируется как мера «количества информации», переносимого распределением: более высокая энтропия соответствует меньшему количеству информации. Таким образом, вы можете использовать этот принцип максимальной энтропии, чтобы сказать, что внутри семейства Бета априор, который содержит меньше информации (максимальное невежество), является этим единообразным априором.α = β = 1θ ∈ [ 0 , 1 ]α = β= 1
Вы можете выбрать другую точку зрения, используемую ОП, и сказать, что никакая информация не соответствует отсутствию головы и хвоста, т. Е.
α = β= 0 ⇒ π( θ ) ∝ θ- 1( 1 - θ )- 1
Предшествующее, которое мы получаем таким способом, называется Приоритетом Холдейна . Функция имеет небольшую проблему - интеграл по бесконечен, т. Е. Независимо от того, какая нормирующая постоянная, она не может быть превращается в правильный PDF. На самом деле, априор Холдейна - это правильный pmf , который ставит вероятность 0,5 на , 0,5 на и вероятность 0 на все другие значения для . Однако давайте не будем увлекаться - для непрерывного параметра априорные значения, которые не соответствуют надлежащему pdf, называются неправильными априорными значениями. I = [ 0 , 1 ] θ = 0 θ = 1 θ θθ- 1( 1 - θ )- 1я= [ 0 , 1 ]θ = 0θ = 1θθ, Поскольку, как отмечалось ранее, все, что имеет значение для байесовского вывода, это заднее распределение, неправильные априорные значения допустимы, если заднее распределение является правильным. В случае с Холдейном мы можем доказать, что задний pdf верен, если наша выборка содержит хотя бы один успех и один провал. Таким образом, мы можем использовать Haldane только тогда, когда мы наблюдаем по крайней мере одну голову и один хвост.
В другом смысле априор Холдейна может считаться неинформативным: среднее значение апостериорного распределения теперь равно
, то есть частоту выборки головок, которая является частой оценкой MLE
для биномиальной модели задачи подбрасывания монеты. Кроме того, вероятные интервалы для соответствуют доверительным интервалам Вальда. Поскольку методы частых не определяют априор, можно сказать, что априор Холдейна неинформативен или соответствует нулевому априорному знанию, потому что он приводит к «тому же» выводу, который сделал бы частик.α + xα + β+ n= хNθθ
Наконец, вы можете использовать априор, который не зависит от параметризации задачи, т. Е. Априор Джеффриса, который для бета-биномиальной модели соответствует
α = β= 12⇒ π( θ ) ∝ θ- 12( 1 - θ )- 12
таким образом, с эффективным размером выборки 1. Преимущество Джеффриса состоит в том, что он инвариантен при репараметризации пространства параметров. Например, единообразный априор присваивает равные вероятности всем значениям , вероятности возникновения события «голова». Однако вы можете решить параметризовать эту модель в терминах log-odds события "head" вместо . Что такое априор, который выражает «максимальное незнание» в терминах лог-шансов, т. Е. Который говорит, что все возможные лог-шансы для события «голова» равновероятны? Это Холдейн, как показано в этом (немного загадочном) ответеθλ = л о г( θ1 - θ)θ, Вместо этого Джеффрис инвариантен относительно всех изменений метрики. Джеффрис заявил, что априор, у которого нет этого свойства, в некотором роде информативен, поскольку содержит информацию о метрике, которую вы использовали для параметризации проблемы. Его предшественник не
Подводя итог, можно сказать, что в бета-биномиальной модели не существует однозначного выбора неинформативного априора. То, что вы выбираете, зависит от того, что вы подразумеваете под нулевым предварительным знанием, и от целей вашего анализа.