Справочная информация: В настоящее время я занимаюсь сравнением различных байесовских иерархических моделей. Данные являются числовыми показателями благосостояния для участника и времени . У меня около 1000 участников и от 5 до 10 наблюдений на каждого участника.
Как и в случае большинства продольных наборов данных, я ожидаю увидеть некоторую форму автокорреляции, при которой наблюдения, которые ближе по времени, имеют большую корреляцию, чем наблюдения, которые находятся дальше друг от друга. Упрощение нескольких вещей, основная модель выглядит следующим образом:
где я сравниваю модель без лагов:
с моделью отставания:
где - среднее значение на уровне человека, а β 1 - параметр запаздывания (т.е. эффект запаздывания добавляет кратное отклонение наблюдения от предыдущего момента времени от прогнозируемого значения этого момента времени). Я также должен был сделать несколько вещей, чтобы оценить y i 0 (то есть наблюдение до первого наблюдения).
Результаты, которые я получаю, показывают, что:
- Параметр задержки составляет около .18, 95% ДИ [.14, .21]. Т.е. это ненулевое
- Среднее отклонение и DIC увеличиваются на несколько сотен, если в модель включена задержка
- Последующие прогностические проверки показывают, что благодаря включению эффекта запаздывания модель лучше восстанавливает автокорреляцию в данных
Таким образом, в целом, ненулевой параметр лага и последующие прогностические проверки предполагают, что модель лага лучше; все же среднее отклонение и DIC предполагают, что модель без задержки лучше. Это озадачивает меня.
Мой общий опыт заключается в том, что если вы добавите полезный параметр, он должен как минимум уменьшить среднее отклонение (даже если после потери сложности DIC не улучшится). Кроме того, нулевое значение параметра запаздывания приведет к тому же отклонению, что и модель без запаздывания.
Вопрос
Почему добавление эффекта запаздывания может увеличить среднее отклонение в байесовской иерархической модели, даже если параметр запаздывания не равен нулю, и это улучшает апостериорные прогностические проверки?
Начальные мысли
- Я сделал много проверок сходимости (например, просматривал трассировки; изучал различия в результатах отклонения по цепочкам и по трассам), и обе модели, похоже, сходились на заднем плане.
- Я сделал проверку кода, где заставил эффект запаздывания быть равным нулю, и это восстановило отклонения модели без запаздывания.
- Я также посмотрел на среднее отклонение минус штраф, который должен привести к отклонению от ожидаемых значений, и это также сделало модель отставания хуже.
- Возможно, есть некоторая проблема с тем, как я оценил предполагаемый момент времени до первого наблюдения.
- Возможно, эффект запаздывания в этих данных слабый
- Я попытался оценить модель , используя максимальную liklihood , используя
lme
сcorrelation=corAR1()
. Оценка параметра отставания была очень похожа. В этом случае модель отставания имела большую логарифмическую вероятность и меньшую AIC (примерно на 100), чем модель без задержки (то есть предполагалось, что модель задержки была лучше). Таким образом, это укрепило идею о том, что добавление лага должно также уменьшить отклонение в байесовской модели. - Возможно, в байесовских остатках есть что-то особенное. Если в модели запаздывания используется разница между прогнозируемым и фактическим y в предыдущий момент времени, то эта величина будет неопределенной. Таким образом, эффект запаздывания будет действовать в течение вероятного интервала таких остаточных значений.