Как ответить на вопросы рецензентов о p-значениях в байесовской многоуровневой модели?

Рецензент попросил нас предоставить p-значения, чтобы лучше понять оценки модели в нашей байесовской многоуровневой модели. Модель представляет собой типичную модель множественных наблюдений на одного участника эксперимента. Мы оценили модель с помощью Stan, поэтому мы можем легко вычислить дополнительную апостериорную статистику. В настоящее время мы сообщаем (визуально и в таблицах) среднюю оценку и квантили 0,025 и 0,975.

Мой ответ пока будет включать:

Значения P несовместимы с байесовскими моделями, т.е. $P(X|\theta) \neq P(\theta|X).$
Исходя из апостериорного значения, мы можем вычислить вероятность того, что параметры будут больше (меньше) 0. Это выглядит как традиционное значение p.

Мой вопрос заключается в том, может ли это быть ответом, который может удовлетворить рецензента, или это только вызовет еще большую путаницу?

Обновление 10 октября: мы переписали статью с рекомендацией в ответе. Документ принят, поэтому я повторю свой предыдущий комментарий о том, что это действительно полезный совет!

bayesian p-value multilevel-analysis

— Стейн
источник

Может быть, рецензент запрашивает обычные частые p-значения, независимо от вашей байесовской модели?

— Стефан Лоран

Это так очевидно, я даже не думал об этом. У модели есть некоторые сложности (слабоинформативные априоры, некоторые пропущенные значения в объясняющих переменных), что делает довольно трудным запускать версию для частых пользователей, но я подумаю о том, чтобы сообщить об урезанной модели с частотой p-значений.

— Стийн

Во-первых, быстрое пояснение: хотя вероятность действительно не является апостериорной, p-значения не столько противоречат байесовскому выводу, сколько, как правило, представляют собой просто другое, по всем причинам, по которым доверительные интервалы могут совпадать или не совпадать с достоверными интервалами. (Хотя это не обязательно совсем другая вещь, как показывает апостериорная предиктивная проверка, которая действительно включает p-значения.)

Однако я предполагаю, что этот уровень сложности не то, что имеет в виду рецензент. Я предполагаю, что они просто «знают», что статистические модели должны иметь p-значения, поэтому они попросили их. Таким образом, остается вопрос: как ответить?

Когда «рецензент хочет Х», я считаю полезным задать себе два связанных вопроса:

Мотивация: Что они хотят, чтобы Х сделал для них?
Рациональная реконструкция. Что было бы наиболее разумно звучащей вещью, которую они могли бы попросить вместо Х, если бы они хотели это сделать?

Тогда дайте им это.

Преимущество невежественного рецензента (который, тем не менее, может быть умным и правым в отношении бумаги) заключается в том, что они редко имеют четкое представление о том, что они имеют в виду, когда просят X. Это означает, что если вы воссоздаете их, задавая лучший вопрос, они ' Я буду рад, если вы ответите на него.

В вашем случае вполне возможно, что рецензенту нужен параллельный анализ частоты, хотя я сомневаюсь в этом. Я думаю, что вы хотите работать с подсказкой рецензента, что они хотят, чтобы p-значения «лучше понимали модель». Ваша работа, я думаю, состоит в том, чтобы проанализировать это так, чтобы рецензент звучал мудро. Предположительно было несколько следующих предложений, отмечающих то, что было неясно из газеты. Возможно, были некоторые эффекты, представляющие интерес для рецензента, которые не могли быть восстановлены из предельных значений ваших параметров, или некоторые величины, которые освещали бы то, что модель сказала бы о случаях, представляющих интерес для них, или отсутствие кратких сводок ...

Если вы можете определить эти проблемы, вы можете заключить свой ответ в следующие формы (исходный запрос в квадратных скобках):

«рецензент [требует р-значения для термина взаимодействия] был обеспокоен тем, что из нашей презентации было неясно, как А менялся в зависимости от В, поэтому на рисунке 2 мы показываем…» или «рецензент задавался вопросом [можем ли мы отклонить гипотеза о том, что эффект А равен нулю] относительно направления эффекта А. Таблица 3 показывает, что эта модель дает 99% вероятность того, что это отрицательно "или" рецензент задается вопросом [является ли наша модель значительно более подходящей, чем модель содержит только A], как наша модель сравнивается с моделью, содержащей только A. Мы решаем этот вопрос, сравнивая ее с ... используя DIC / вычисляя Байесовский коэффициент / показывая, что наши выводы относительно A надежны до включения B "и т. д.

В каждом случае есть точный перевод оригинального запроса и ответа.

Предостережения: эта стратегия, кажется, работает лучше всего, когда рецензент является предметным экспертом с относительно слабым пониманием статистики. Он не работает с самоидентифицированным статистически сложным рецензентом, который на самом деле хочет X, потому что им нравится X или где-то недавно о них читали. У меня нет предложений для последнего.

Наконец, я настоятельно рекомендую не говорить ничего даже слегка религиозного о том, что Байес - это другая парадигма, а вопросы рецензентов не имеют смысла. Даже если это правда, это делает всех сварливыми без реальной выгоды.

— conjugateprior
источник

Вероятно, будет соблазнительно отметить, что значения p немного сложны для определения в часто используемых многоуровневых моделях. Не делай этого тоже ;-)

— конъюгатприор

P

$P$

P

$P$

Таким образом, мы находимся на той же странице тогда. Или это ответ на @ stéphane-laurent

— сопряженный

Да, извините, я не прояснил это

— Фрэнк Харрелл

@conjugateprior Спасибо! Огромная помощь. Я уже понял, что упоминание р-значений в многоуровневых моделях было бы неприятно. Но, как вы говорите, моя точка зрения 1 может также встретить «слегка религиозную».

— Стийн