Редактирование: я добавил простой пример: вывод среднего значения . Я также немного разъяснил, почему достоверные интервалы, не соответствующие доверительным интервалам, являются плохими.
Я, довольно набожный байесовский, нахожусь в разгар своего рода кризиса веры.
Моя проблема заключается в следующем. Предположим, что я хочу проанализировать некоторые данные IID . Что бы я сделал, это:
во-первых, предложите условную модель:
Затем выберите приоритет для : р ( θ )
Наконец, примените правило Байеса, вычислите апостериор: (или некоторое приближение к нему, если оно не должно быть вычислено) и ответьте на все мои вопросы оθ
Это разумный подход: если истинная модель данных действительно находится «внутри» моего условного (это соответствует некоторому значению ), то я могу призвать статистическую теорию принятия решений сказать, что мой метод допустим (см. Роберт «Байесовский выбор» для деталей; «Вся статистика» также дает четкое описание в соответствующей главе).θ 0
Однако, как все знают, предполагать, что моя модель верна, довольно высокомерно: почему природа должна аккуратно попадать в рамки моделей, которые я рассмотрела? Гораздо более реалистично предположить, что реальная модель данных отличается от для всех значений . Обычно это называют «неправильно определенной» моделью.р ( Х | & thetas ; ) & thetas ;
Моя проблема заключается в том, что в этом более реалистичном ошибочно указанном случае у меня нет веских аргументов для того, чтобы быть байесовским (то есть: вычислять апостериорное распределение) по сравнению с простым вычислением Оценщика максимального правдоподобия (MLE):
В самом деле, согласно Kleijn, vd Vaart (2012) , в неправильно указанном случае заднее распределение:
сходится как к распределению Дирака с центром вthetas ; M L
не имеет правильной дисперсии (если только два значения не совпадают), чтобы гарантировать, что достоверные интервалы апостериорных совпадают с доверительными интервалами для . (Обратите внимание, что, хотя доверительные интервалы, очевидно, являются чем-то, о чем байесовцы не заботятся чрезмерно, это качественно означает, что апостериорное распределение по своей сути неверно, поскольку подразумевает, что его достоверные интервалы не имеют правильного покрытия)
Таким образом, мы платим вычислительную премию (байесовский вывод, как правило, дороже, чем MLE) за отсутствие дополнительных свойств.
Таким образом, наконец, мой вопрос: есть ли какие-либо аргументы, теоретические или эмпирические, для использования байесовского вывода над более простой альтернативой MLE, когда модель неправильно определена?
(Поскольку я знаю, что мои вопросы часто неясны, пожалуйста, дайте мне знать, если вы что-то не понимаете: я попытаюсь перефразировать это)
Изменить: давайте рассмотрим простой пример: вывод среднего значения по гауссовой модели (с известной дисперсией чтобы упростить еще больше). Мы рассматриваем гауссовский : мы обозначаем предыдущее среднее, - обратную дисперсию априорного. Пусть - эмпирическое среднее . Наконец, обратите внимание: . σ μ 0 β 0 ˉ X X i μ = ( β 0 μ 0 + n
Заднее распределение:
В правильно указанном случае (когда действительно имеет гауссово распределение), этот апостериор имеет следующие приятные свойства
Если генерируются из иерархической модели, в которой их общее среднее выбирается из предыдущего распределения, то последующие вероятные интервалы имеют точное покрытие. Условно на данных вероятность того, что находится в любом интервале, равна вероятности того, что апостериор приписывает этот интервал θ
Даже если предшествующее значение неверно, достоверные интервалы имеют правильное покрытие в пределе в котором предшествующее влияние на заднюю часть исчезает
апостериор также обладает хорошими частотными свойствами: любой байесовский оценщик, построенный из апостериорного, гарантированно допустим, а заднее среднее является эффективной оценкой (в смысле Крамера-Рао) среднего, вероятные интервалы являются асимптотически доверительными интервалами.
В неправильно указанном случае большинство этих свойств не гарантируется теорией. Чтобы исправить идеи, давайте предположим, что настоящая модель для состоит в том, что они являются дистрибутивами Student. Единственное свойство, которое мы можем гарантировать (Kleijn et al), состоит в том, что апостериорное распределение концентрируется на действительном среднем значении в пределе . В общем, все свойства покрытия исчезнут. Хуже того, в целом мы можем гарантировать, что в этом пределе свойства покрытия в корне неверны: апостериорное распределение приписывает неправильную вероятность различным областям пространства.X i n → ∞