Подводные камни линейных смешанных моделей

18

Каковы основные ловушки использования линейных моделей со смешанными эффектами? Каковы наиболее важные вещи, которые нужно проверить / остерегаться при оценке соответствия вашей модели? При сравнении моделей одного и того же набора данных, что наиболее важно искать?

mixed-model model-comparison

— Алан Х.
источник

16

Это хороший вопрос.

Вот несколько распространенных ошибок:

Используя стандартную теорию правдоподобия, мы можем получить тест для сравнения двух вложенных гипотез, и , вычисляя статистику теста отношения правдоподобия. Нулевое распределение этой тестовой статистики приблизительно равно хи-квадрат со степенями свободы, равными разнице в размерах двух пространств параметров. К сожалению, этот тест является приблизительным и требует нескольких допущений. Одним из важных предположений является то, что параметры под нулем не находятся на границе пространства параметров. Поскольку нас часто интересует проверка гипотез о случайных эффектах, которые принимают форму: Это реальная проблема. $H_0$ $H_1$
${ЧАС}_{0} : σ^{2} знак равно 0$ $H_0: \sigma^2=0$ Способ обойти эту проблему - использовать REML. Но все же, р-значения будут иметь тенденцию быть больше, чем они должны быть. Это означает, что если вы наблюдаете значительный эффект, используя приближение χ2, вы можете быть достаточно уверены, что оно действительно значимо. Небольшие, но не значимые p-значения могут побудить использовать более точные, но трудоемкие методы начальной загрузки.
Сравнение фиксированных эффектов. Если вы планируете использовать тест отношения правдоподобия для сравнения двух вложенных моделей, которые отличаются только фиксированными эффектами, вы не можете использовать метод оценки REML. Причина в том, что REML оценивает случайные эффекты, рассматривая линейные комбинации данных, которые удаляют фиксированные эффекты. Если эти фиксированные эффекты будут изменены, вероятности двух моделей не будут напрямую сопоставимы.
P-значения: p-значения, полученные с помощью теста отношения правдоподобия для фиксированных эффектов, являются приблизительными и, к сожалению, имеют тенденцию быть слишком маленькими, что иногда преувеличивает важность некоторых эффектов. Мы можем использовать непараметрические методы начальной загрузки, чтобы найти более точные значения p для теста отношения правдоподобия.
Есть и другие опасения по поводу p-значений для теста с фиксированными эффектами, которые подчеркивает д-р Даг Бейтс [ здесь ].

Я уверен, что другие участники форума будут иметь лучшие ответы.

Источник: Расширение линейных моделей с помощью R - Dr. Julain Faraway.

— suncoolsu
источник

9

Общая ошибка, которую я вижу, - игнорирование дисперсии случайных эффектов. Если оно велико по сравнению с остаточной дисперсией или дисперсией зависимой переменной, подбор обычно выглядит хорошо, но только потому, что случайные эффекты учитывают всю дисперсию. Но поскольку график фактического и прогнозируемого выглядит хорошо, вы склонны думать, что ваша модель хороша.

Все разваливается, когда такая модель используется для прогнозирования новых данных. Обычно тогда вы можете использовать только фиксированные эффекты, и подгонка может быть очень плохой.

— mpiktas
источник

6

Моделирование структуры отклонений является, пожалуй, самой мощной и важной особенностью смешанных моделей. Это выходит за рамки дисперсионной структуры и включает корреляцию между наблюдениями. Необходимо соблюдать осторожность, чтобы построить соответствующую ковариационную структуру, в противном случае тесты гипотез, доверительных интервалов и оценки средств лечения могут быть недействительными. Часто требуется знание эксперимента, чтобы определить правильные случайные эффекты.

SAS для смешанных моделей - это мой переход к ресурсу, даже если я хочу провести анализ в R.

— лощина
источник