Разрешить данным диктовать приоры, а затем запустить модель, используя эти приоры? (например, управляемые данными априоры из одного и того же набора данных)

9

Насколько я понимаю, мы не должны позволять тому же набору данных, который мы анализируем, управлять / определять, как выглядят предыдущие распределения в байесовском анализе. В частности, неуместно определять предыдущие распределения для байесовского анализа, основанные на сводной статистике из того же набора данных, который вы затем будете использовать приоры, чтобы помочь вписать модель.

Кто-нибудь знает о ресурсах, которые конкретно обсуждают это как неуместное? Мне нужны цитаты по этому вопросу.

bayesian prior

— Сара
источник

связанные: какие методы могут быть использованы для указания приоры из данных

— Дэвид Лебауэр

11

Да, это неуместно, потому что он использует одни и те же данные дважды, что приводит к ложно чрезмерно уверенным результатам. Это известно как «двойное погружение».

Для справки я бы начал с Карлина и Луи (2000). Хотя «двойное погружение» было одним из основных критических замечаний Эмпирического Байеса, гл. 3, в частности раздел 3.5 этой книги, описывает способы оценки подходящих доверительных интервалов с использованием метода EB.

Бергер Дж. (2006). \ Случай объективного байесовского анализа. Байесовский анализ, 1 (3), 385 {402

Брэдли П. Карлин, Томас А. Луис 2000. Байесовские и эмпирические байесовские методы анализа данных.

Darniede, WF 2011. Байесовские методы для зависимых от данных априоров. MS Диссертация, штат Огайо Univ.

Гельман, А., Карлин, Дж. Б., Стерн, Х. С. и Рубин, Д. Б. (2003), Байесовский анализ данных, второе издание (тексты Чепмена и Холла / CRC в статистической науке), Chapman and Hall / CRC, 2-е редактор

— Дэвид Лебауэр
источник

@sarah Пожалуйста, зарегистрируйте свой аккаунт, чтобы вы могли вернуть свой вопрос. Просто посетите этот URL: stats.stackexchange.com/users/login

1

Хотя может иметь смысл использовать данные для построения предыдущего.

Для примера в моделировании смеси см. Richardson & Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667.

Они используют среднее значение и диапазон точек данных в качестве гиперпараметров для предыдущего, и это имеет смысл.

На мой взгляд, проблема использования данных дважды возникает, когда на основе этих данных получен информационный априор.

Пока вы проверяете, что ваше предыдущее распределение является «плоским» там, где апостериорное распределение достигает максимума, вы знаете, что ваше предыдущее распределение не оказывает сильного влияния на результаты.

— пьер
источник

Использование данных для построения предварительного не может иметь место в рамках байесовской парадигмы. Так что это не имеет смысла с байесовской точки зрения, и обычная проверка байесовских процедур не применяется. Полученный вывод может быть совершенно верным, но его нужно продемонстрировать из первых принципов. (Ричардсон и Грин используют то, что называется эмпирическим байесовским. Что не является байесовской процедурой.)

— Сиань

Хотя это не имеет смысла в рамках байесовской парадигмы, иногда трудно провести черту разделения между тем, что является данными, и тем, что предшествует. Смотрите мой ответ на stats.stackexchange.com/questions/112451/…

— kjetil b halvorsen