Когда включать случайный эффект в модель

Я новичок в смешанном моделировании, и меня смущает вопрос о целесообразности использования случайного эффекта в анализе, который я делаю. Любой совет будет принят во внимание.

мое исследование проверяет, насколько хорошо недавно разработанный индекс численности млекопитающих может предсказать значение установленного, но более трудоемкого индекса. Я измерял эти индексы в нескольких лесных заплатах, с несколькими графиками в каждом лесном патче.

потому что я не заинтересован напрямую в эффектах лесных патчей, и потому что мои образцы графиков вложены в лесные патчи, я использовал лесные патчи как случайный эффект. Однако у меня есть пара вопросов по этому поводу:

Во-первых, я знаю, что случайные эффекты позволяют обобщать результаты по всем возможным уровням случайного фактора, а не только по тем, которые вы выбрали. но мне кажется, что для такого рода выводов ваши уровни должны были бы быть случайно выбраны? Мои лесные участки не были выбраны случайным образом, поэтому я все еще могу использовать их как случайный эффект?

во-вторых, я прочитал, что вы можете проверить, нужно ли иметь случайный эффект, выполнив, например, тест отношения правдоподобия для сравнения моделей с эффектом и без него. Я сделал это, и это предполагает, что модель случайных эффектов не объясняет данные, а также модель только с фиксированными эффектами. Моя проблема с этим заключается в том, что мои участки все еще вложены в лесные участки, и поэтому предположительно не являются независимыми. Итак, могу ли я использовать этот подход LRT, чтобы оправдать исключение случайного эффекта, или мне все еще нужно включить его для учета вложенности? и если я в итоге удаляю случайный эффект, есть ли способ убедиться, что участки в лесных участках можно считать независимыми?

Спасибо за вашу помощь!

сойка

random-effects-model nested-data

— сойка
источник

Я думаю, что основная концептуальная вещь со случайными эффектами состоит в том, что все они должны быть примерно одинаковой величины и быть взаимозаменяемыми - это то, что делает вывод о случайных эффектах без выборок возможным. Кроме того, вы должны быть осторожны, используя тесты LR для случайных эффектов, поскольку может быть значительная неопределенность в отношении компонента дисперсии, даже если оценка ML / REML равна нулю или близка к нулю.

— вероятностная

Большое спасибо за это. Так будет ли какой-нибудь способ потренироваться, если необходимо сохранить случайный эффект?

— Джей

Из того, что я понимаю, лучше не делать сравнения LR с моделями, подходящими REML. Например, в R's lmer вы должны установить REML = FALSE при выполнении LRT. (По умолчанию установлено значение ИСТИНА, что в противном случае лучше.)

— Уэйн

Как я понимаю, у вас есть простой вложенный план наблюдений (графики внутри фрагментов), и вы заинтересованы в корреляции / регрессии между двумя непрерывными переменными (двумя индексами). Размер вашей выборки составляет m patches xn plots = N пар наблюдений (или соответствующее суматуратное, если оно не сбалансировано). Никакой надлежащей рандомизации не было, но, возможно, вы можете / должны / хотите учесть, что (1) патчи были «случайным образом» выбраны из всех патчей этого типа или в некоторой области, а затем (2) графики были «случайными» выбран в каждом патче.

Если вы игнорируете случайный коэффициент Patch, вы можете псевдореплицировать, считая, что вы произвольно выбирали N графиков «свободно», не ограничивая их (по количеству или типу) в этих (ранее) выбранных исправлениях.

Итак, ваш первый вопрос: да, это то, что позволяет случайный фактор. Достоверность такого вывода зависит от обоснованности предположения о том, что случайный выбор эквивалентен случайному выбору исправлений (например, что ваши результаты не будут отличаться, если будет выбран другой набор исправлений леса). Это накладывает ограничение и на ваше пространство вывода: тип леса или географического района, до которого распространяются ваши результаты, зависит от максимальной (мнимой) совокупности патчей, из которых ваша выборка является заслуживающей доверия «случайной» выборкой. Возможно, ваши наблюдения представляют собой «разумную случайную» выборку млекопитающих участков леса в вашем регионе, но это будет подозрительно агрегированная выборка млекопитающих всего континента.

Второй: тест будет зависеть от «степени псевдорепликации» или от того факта, что графики в вашей выборке «принадлежат» патчам. Это то, насколько сильно различаются патчи и графики внутри патчей (поиск внутриклассовой корреляции). В крайнем случае, присутствует только различие между патчами (графики внутри патча одинаковы), и у вас есть «чистая псевдорепликация»: ваш N должен быть числом патчей, а выборка одного или нескольких графиков из каждого из них не дает новая информация. С другой стороны, все вариации происходят между графиками, и нет никакой дополнительной вариации, объясняемой знанием того, к какому участку леса относится каждый участок (и тогда модель без случайного фактора будет казаться более экономной); у вас есть "независимые" участки. Ни одна из крайностей, скорее всего, не произойдет ... особенно для биологических переменных, наблюдаемых на земле, хотя бы из-за пространственной автокорреляции и географического распределения млекопитающих. Я лично предпочитаю в любом случае сохранять факторы по своему замыслу (например, даже когда исправления не являются значимым источником вариаций В ЭТОМ ОБРАЗЕЦЕ), чтобы поддержать «экспериментально-наблюдательную» аналогию, описанную выше; помните: отсутствие в вашей выборке доказательств отклонения нулевой гипотезы о том, что вариация среди патчей равна нулю, не означает, что вариация равна нулю в популяции. даже когда исправления не являются значимым источником вариаций в ЭТОМ ОБРАЗЕЦЕ) для поддержания «экспериментально-наблюдательной» аналогии, объясненной выше; помните: отсутствие в вашей выборке доказательств отклонения нулевой гипотезы о том, что вариация среди патчей равна нулю, не означает, что вариация равна нулю в популяции. даже когда исправления не являются значимым источником вариаций в ЭТОМ ОБРАЗЕЦЕ) для поддержания «экспериментально-наблюдательной» аналогии, объясненной выше; помните: отсутствие в вашей выборке доказательств отклонения нулевой гипотезы о том, что вариация среди патчей равна нулю, не означает, что вариация равна нулю в популяции.

— FairMiles
источник