Почему

Фон

Одним из наиболее часто используемых слабых предшествующих отклонений является обратная гамма с параметрами (Gelman 2006) . $\alpha =0.001, \beta=0.001$

Однако это распределение имеет 90% CI приблизительно . $[3\times10^{19},\infty]$

library(pscl)
sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, 0.001))

[1] 3.362941e+19          Inf

Исходя из этого, я понимаю, что дает низкую вероятность того, что дисперсия будет очень высокой, и очень низкая вероятность того, что дисперсия будет менее 1 . $IG(0.001, 0.001)$ $P(\sigma<1|\alpha=0.001, \beta=0.001)=0.006$

pigamma(1, 0.001, 0.001)
[1] 0.006312353

Вопрос

Я что-то упустил или это информативный априор?

Обновление, чтобы уточнить, причина, по которой я рассматривал это «информативно», заключается в том, что он очень твердо заявляет, что дисперсия огромна и выходит за рамки практически любой дисперсии, когда-либо измеренной.

последующее наблюдение: обеспечит ли мета-анализ большого числа оценок отклонений более разумный предварительный результат?

Ссылка

Гельман 2006. Априорные распределения для параметров дисперсии в иерархических моделях . Байесовский анализ 1 (3): 515–533

bayesian multilevel-analysis prior

— Дэвид Лебауэр
источник

«Настоящий» неинформативный априор не является распределением. Так что нет никакой вероятности, такой как P (сигма <1).

— Стефан Лоран

Ответы:

Используя обратное гамма-распределение, получаем:

п (σ^{2} | α, β) α (σ^{2})^{- α - 1} ехр (- \frac{β}{σ^{2}})

$p(\sigma^2|\alpha,\beta) \propto (\sigma^2)^{-\alpha-1} \exp(-\frac{\beta}{\sigma^2})$

Легко видеть, что если и обратная гамма будет приближаться к Джеффрису ранее. Это распределение называется «неинформативным», потому что это правильное приближение к Джеффрису до $\beta \rightarrow 0$ $\alpha \rightarrow 0$

п (σ^{2}) α \frac{1}{σ^{2}}

$p(\sigma^2) \propto \frac{1}{\sigma^2}$

Что является неинформативным для параметров масштаба, см., Например , страницу 18 здесь , потому что этот предварительный вариант является единственным, который остается инвариантным при изменении масштаба (обратите внимание, что аппроксимация не является инвариантной). Это имеет неопределенный интеграл от который показывает, что он некорректен, если диапазон включает в себя либо либо . Но эти случаи - только проблемы в математике, а не в реальном мире. На самом деле никогда не наблюдайте бесконечное значение для дисперсии, и если наблюдаемая дисперсия равна нулю, у вас есть идеальные данные !. Для вас можно установить нижний предел, равный а верхний предел, равный $\log(\sigma^2)$ $\sigma^2$ $0$ $\infty$ $L>0$ , и ваше распределение корректно. $U<\infty$

Хотя может показаться странным, что это «неинформативно» в том смысле, что оно предпочитает небольшую дисперсию большим, но это только в одном масштабе. Вы можете показать, что имеет неправильное равномерное распределение. Таким образом, этот предварительный вариант не поддерживает какой-либо один масштаб по сравнению с любым другим $\log(\sigma^2)$

Хотя это не имеет прямого отношения к вашему вопросу, я бы предложил «лучшее» неинформативное распределение, выбрав верхний и нижний пределы и в предшествующих значениях Джеффриса, а не и . Обычно границы могут быть установлены довольно легко, если немного подумать о том, что на самом деле означает в реальном мире. Если это была ошибка в некоторой физической величине - не может быть меньше размера атома или наименьшего размера, который вы можете наблюдать в своем эксперименте. Дальше $L$ $U$ $\alpha$ $\beta$ $\sigma^2$ $L$ $U$ не может быть больше земли (или солнца, если вы хотите быть по-настоящему консервативным). Таким образом, вы сохраняете свои свойства инвариантности, и это легче до выборки из: возьмите , а затем смоделированное значение как . $q_{(b)} \sim \mathrm{Uniform}(\log(L),\log(U))$ $\sigma^{2}_{(b)}=\exp(q_{(b)})$

— probabilityislogic
источник

+1 не только за ответ на вопрос, но и за полезные советы.

— whuber

l o g (σ)

$log(\sigma)$

B e t a_{2} (1, 1)

$Beta_{2}(1,1)$

F_{1, 1}

$F_{1,1}$

B e t a_{2} (0, 0)

$Beta_{2}(0,0)$

— вероятность

@probabilityislogic спасибо за объяснение. Если я понимаю, теоретически гамма хороша, потому что ее ярость равна

и потому, что она сопряжена с нормой, но при применении эти функции обычно не требуются. Но в чем разница между выборкой из

[0, \infty]

$[0,\infty]$

σ \sim e x p (U (l o g (L), l o g (U))

$\sigma\sim exp(U(log(L),log(U))$

σ \sim U (L, U)

$\sigma\sim U(L,U)$

— Дэвид Лебауэр

(0, \infty)

$(0, \infty)$

α = 1, β = 1 / 2

$\alpha=1, \beta=1/2$

Это довольно близко к квартире. Его медиана составляет 1,9 E298, почти самое большое число, которое можно представить в плавающей арифметике двойной точности. Как вы указали, вероятность, которую он назначает любому интервалу, который не очень велик, действительно мала. Трудно стать менее информативным, чем это!

— Whuber
источник

Спасибо за ваше объяснение. Я сталкивался с проблемами сходимости, и я был удивлен, что так много переменных, с которыми я работаю, имеют среднее значение <1000 (т. Е. Если что-то> 1000 г, то оно измеряется в кг), а отклонения примерно одного порядка величина. Итак, я понимаю, что мне нужно больше априоров, которые включают эту информацию, даже если у меня нет хороших предварительных знаний о ее ценности или о том, как она разделена.

— Дэвид Лебауэр

В зависимости от модели ваш задний план может быть очень близок к неправильному при использовании этого предыдущего

— JMS