Что такое «неинформативный априор»? Можем ли мы когда-нибудь иметь действительно без информации?

73

Вдохновленный комментарием к этому вопросу :

Что мы считаем «неинформативным» в априоре - и какая информация все еще содержится в предположительно неинформативном априоре?

Я обычно вижу приору в анализе, где это либо анализ по типу частых, пытающийся заимствовать некоторые хорошие части из байесовского анализа (будь то какая-то более простая интерпретация вплоть до «его горячей вещи»), указанный априор является равномерное распределение по пределам измерения эффекта, сосредоточенные на 0. Но даже, утверждающие в форму к предшествующему - это как раз случается быть плоскими.

Есть ли лучший неинформативный перед использованием?

bayesian prior

— фомиты
источник

2

Возможно, вам понравится так называемый принцип максимальной энтропии . Я не хочу расширять это в полном ответе - статья в Википедии кажется хорошего качества. Я вполне уверен, что некоторые участники будут расширять его гораздо лучше, чем я.

— Элвис

93

[Предупреждение: как член, несущий карты, в разделе « Объективный байесовский отсек» ISBA , мои взгляды не являются репрезентативными для всех байесовских статистиков!

Таким образом, не существует такой вещи, как априор с «действительно никакой информацией».

Действительно, «неинформативный» априор, к сожалению, является неправильным. Любое предыдущее распространение содержит некоторую спецификацию, сродни некоторому количеству информации. Даже (или особенно) униформа приора. Действительно, равномерный априор является плоским только для одной заданной параметризации задачи. Если один переходит в другую параметризацию (даже ограниченную), якобианское изменение переменной входит в картину и плотность, и предшествующее уже не является плоским.

Как отметил Элвис, максимальная энтропия - это один из подходов, отстаиваемых при выборе так называемых «неинформативных» приоров. Однако требуется (a) достаточно информации о некоторых моментах предыдущего распределения чтобы указать ограничения которые приводят к предыдущему MaxEnt и (b) предварительный выбор контрольной меры [в непрерывных настройках], выбор, который возвращает дискуссию к начальной стадии! (Кроме того, параметризация ограничений (т. Е. Выбор $h(\theta)$ $\pi(\cdot)$

\int_{Θ} h (θ) d π (θ) = h_{0}

$\int_{\Theta} h(\theta)\,\text{d}\pi(\theta) = \mathfrak{h}_0$

π^{*} (θ) \propto \exp {λ^{T} h (θ)}

$\pi^*(\theta)\propto \exp\{ \lambda^\text{T}h(\theta) \}$

d μ (θ)

$\text{d}\mu(\theta)$

h

$h$ ) влияет на форму результирующего MaxEnt априори .)

Хосе Бернардо создал оригинальную теорию эталонных априоров, в которой он выбирает априор, чтобы максимизировать информацию, полученную из данных, путем максимизации расстояния Кульбака между априорным и задним. В простейших случаях без каких-либо неприятных параметров, решение Джеффриса. В более сложных задачах: (a) выбор параметров интереса (или даже ранжирование их порядка интересов) должен быть сделан; (b) вычисление предшествующего уровня является довольно сложным и требует последовательности встроенных компактных наборов, чтобы избежать проблем неправильности. (См. Например, Байесовский выбор для деталей.)

Интересно, что некоторые исследователи, не относящиеся к байесовской перспективе, разрабатывают процедуры, называемые доверительными распределениями, которые представляют собой распределения вероятностей в пространстве параметров, построенные путем инверсии из частотных процедур без явной предварительной структуры или даже доминирующей меры в этом пространстве параметров. Они утверждают, что это отсутствие четко определенного априора является плюсом, хотя результат определенно зависит от выбора процедуры инициализации на основе частоты.

Короче говоря, нет «лучшего» (или даже «лучшего») выбора для «неинформативного» априора. И я считаю, что так и должно быть, потому что сама природа байесовского анализа подразумевает, что выбор предыдущего распределения имеет значение. И что нет сравнения приоры: один не может быть «лучше» другого. (По крайней мере, перед наблюдением данных: после того, как они наблюдаются, сравнение априоров становится выбором модели.) Вывод Хосе Бернардо, Джима Берже, Донгчу Сан и многих других «объективных» байесов состоит в том, что существуют примерно эквивалентные эталонные априоры, которые можно использовать, когда вы не уверены в своей предыдущей информации или ищете эталонный байесовский вывод, некоторые из этих априоров частично поддерживаются аргументами теории информации,

— Сиань
источник

14

(+1) Ваша книга? Ох черт. У меня так 387 вопросов для вас :)

— Элвис

4

(+1) Для объективного (не менее!), Прямого ответа.

— кардинал

2

+1 Спасибо за хороший и хорошо информированный обзор вопросов.

— whuber

2

Выдающийся ответ. Спасибо. И еще одна книга, чтобы пойти в список пожеланий.

— Fomite

1

Это почти нечестно. В конце концов, он Кристиан Роберт! Просто шучу. Отличный ответ. И я хотел бы, чтобы @ Xi'an мог раскрыть его в посте на своем блоге, особенно о том, как параметризация важна для темы «неинформативных» приоров.

— Маноэль Гальдино

16

Привлекательным свойством формальных неинформативных априорных значений является «свойство соответствия частоте»: это означает, что задний 95-процентный интервал достоверности также (по крайней мере, приблизительно) составляет 95-процентный доверительный интервал в частом смысле. Это свойство справедливо для ссылки Бернардо до, хотя средства этих неинформативных априоров не ориентированы на достижение хорошего свойства соответствия частоте, если вы используете «наивный» («плоский») неинформативный априор, такой как равномерное распределение или гауссовский распределение с огромной дисперсией, то нет никакой гарантии, что свойство частых совпадений выполнено. Возможно, упоминание Бернардо «априор» не может рассматриваться как «лучший» выбор неинформативного априора, но может считаться наиболее успешным.

— Стефан Лоран
источник

9

Распределения Джеффриса также страдают от несоответствий: априоры Джеффриса для переменной более или более являются неподходящими, что не имеет место для Джеффриса, предшествующего параметру вероятности : мера имеет массу над . $(-\infty,\infty)$ $(0,\infty)$ $p$ $\text{d}p/\sqrt{p(1-p)}$ $\pi$ $(0,1)$

Рени показал, что неинформативное распределение должно быть связано с неправильным интегралом. Вместо этого посмотрите распределения Лосте, которые избегают этой трудности и инвариантны относительно изменений переменных (например, для мера равна ). $p$ $\text{d}p/p(1-p)$

Во-первых, перевод хорош!

Для Э. ЛОСТЕ: "Le calcul des probabilités appliqué à l'artillerie", Revue d'artillerie, том 91, май 1931 года

Для А. РЕНИ: «О новой аксиоматической теории вероятностей» Acta Mathematica, Академия наук Гонконга, том VI, фаск.3-4, 1955

Я могу добавить: М. ДУМАС: «Вероятность вероятности смерти», «Наука и техника», 56, 4-я глава, 1982, с. 687-715.

— Хейман
источник

3

Можно ли переписать это на английском языке, даже если это делается довольно плохо с помощью автоматизированной службы перевода, такой как Google Translate? Другие пользователи, более свободно владеющие французским и английским языками, могут помочь вам отредактировать его.

— Серебряная рыба

3

Насколько я помню, результат инвариантности Лохте ограничен преобразованиями и для параметров на и соответственно. Другие преобразования из и в приведут к другим априорам.

\log σ

$\log\sigma$

\log p / (1 - p)

$\log p/(1-p)$

(0, \infty)

$(0,\infty)$

(0, 1)

$(0,1)$

(0, \infty)

$(0,\infty)$

(0, 1)

$(0,1)$

R

$\mathbb{R}$

— Сиань

2

Из моей краткой переписки с Морисом Дюма в начале 1990-х годов я помню, что он написал «Записку о высшем образовании», в которой он использует преобразования и для получения « инвариантные "приоры.

\log ()

$\log()$

logit ()

$\text{logit}()$

— Сиань

3

Я согласен с превосходным ответом Сианя , указавшего, что не существует ни одного априора, который был бы «неинформативным» в смысле несения информации. Чтобы расширить эту тему, я хотел бы отметить, что одной из альтернатив является проведение байесовского анализа в рамках неточной вероятности (см., Например , Walley 1991 , Walley 2000 ). В этих рамках предшествующее убеждение представлено набором вероятностных распределений.и это приводит к соответствующему набору апостериорных распределений. Может показаться, что это не очень полезно, но на самом деле это довольно удивительно. Даже с очень широким набором предшествующих распределений (где определенные моменты могут варьироваться по всем возможным значениям), вы все равно часто получаете заднюю сходимость к одному заднему как . $n \rightarrow \infty$

Эта аналитическая структура была аксиоматизирована Уолли как его собственная особая форма вероятностного анализа, но по существу эквивалентна надежному байесовскому анализу с использованием набора априорных значений, что дает соответствующий набор исходных данных. Во многих моделях можно установить «неинформативный» набор априоров, который позволяет некоторым моментам (например, предыдущему среднему значению) изменяться во всем возможном диапазоне значений, и это тем не менее дает ценные апостериорные результаты, где задние моменты ограничены более плотно. Эта форма анализа, возможно, лучше претендует на то, чтобы называться «неинформативной», по крайней мере, в отношении моментов, которые могут изменяться во всем допустимом диапазоне.

Простой пример - модель Бернулли: предположим, что мы наблюдаем данные где - неизвестный интересующий параметр. Обычно мы использовали бы бета-плотность в качестве априора (априор Джеффри и эталонный априор имеют эту форму). Мы можем указать эту форму априорной плотности в терминах априорного среднего и другого параметра как: $X_1,...,X_n | \theta \sim \text{IID Bern}(\theta)$ $\theta$ $\mu$ $\kappa > 1$

\begin{aligned} π_{0} (θ | μ, κ) = Beta (θ | μ, κ) = Beta (θ | α = μ (κ - 1), β = (1 - μ) (κ - 1)) . \end{aligned}

$\begin{equation} \begin{aligned} \pi_0(\theta | \mu, \kappa) = \text{Beta}(\theta | \mu, \kappa) = \text{Beta} \Big( \theta \Big| \alpha = \mu (\kappa - 1), \beta = (1-\mu) (\kappa - 1) \Big). \end{aligned} \end{equation}$

(Эта форма дает предыдущие моменты и .) Теперь в неточной модели мы могли бы задайте значение предварительного, чтобы оно состояло из набора всех этих предыдущих распределений по всем возможным ожидаемым значениям , но с другим фиксированным параметром для контроля точности в диапазоне средних значений. Например, мы могли бы использовать набор приоров: $\mathbb{E}(\theta) = \mu$ $\mathbb{V}(\theta) = \mu(1-\mu) / \kappa$

P_{0} \equiv {Beta (μ, κ) | 0 ⩽ μ ⩽ 1} .

$\mathscr{P}_0 \equiv \Big\{ \text{Beta}(\mu, \kappa) \Big| 0 \leqslant \mu \leqslant 1 \Big\}. \quad \quad \quad \quad \quad$

Предположим, мы наблюдаем положительных показателей в данных. Затем, используя правило обновления для модели Бернулли-бета, соответствующий апостериорный набор: $s = \sum_{i=1}^n x_i$

P_{x} = {Beta (\frac{s + μ (κ - 1)}{n + κ - 1}, n + κ) | 0 ⩽ μ ⩽ 1} .

$\mathscr{P}_\mathbf{x} = \Big\{ \text{Beta}\Big( \tfrac{s + \mu(\kappa-1)}{n + \kappa -1}, n+\kappa \Big) \Big| 0 \leqslant \mu \leqslant 1 \Big\}.$

Диапазон возможных значений для последующего ожидания:

\frac{s}{n + κ - 1} ⩽ E (θ | x) ⩽ \frac{s + κ - 1}{n + κ - 1} .

$\frac{s}{n + \kappa-1} \leqslant \mathbb{E}(\theta | \mathbb{x}) \leqslant \frac{s + \kappa-1}{n + \kappa-1}.$

Здесь важно то, что, хотя мы и начали с модели, которая была «неинформативной» в отношении ожидаемого значения параметра (априорное ожидание варьировалось по всем возможным значениям), тем не менее, мы в конечном итоге получаем последующие выводы, которые являются информативными в отношении к последнему ожиданию параметра (теперь они варьируются в более узком наборе значений). Как этот диапазон значений сжимается до одной точки, которая является истинным значением . $n \rightarrow \infty$ $\theta$

— Восстановить Монику
источник

+1. Интересно. Что такое каппа в последнем уравнении? Должна ли это быть каппа-звезда?

— амеба говорит восстановить монику

Я отредактировал, чтобы удалить изменение в чтобы дать более простую модель. Теперь все должно быть в порядке.

κ

$\kappa$

— Восстановите Монику