Почему Anova () и drop1 () предоставили разные ответы для GLMM?

У меня есть GLMM формы:

lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + 
                (1 | factor3), family=binomial)

Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние два дают одинаковые ответы.

Используя кучу сфабрикованных данных, я обнаружил, что эти два метода обычно не отличаются. Они дают одинаковый ответ для сбалансированных линейных моделей, несбалансированных линейных моделей (где неравенство n в разных группах) и для сбалансированных обобщенных линейных моделей, но не для сбалансированных обобщенных линейных смешанных моделей. Таким образом, оказывается, что только в случаях, когда включены случайные факторы, этот диссонанс проявляется.

Почему существует несоответствие между этими двумя методами?
При использовании GLMM следует Anova()или drop1()следует использовать?
Разница между этими двумя довольно незначительна, по крайней мере для моих данных. Имеет ли значение, какой из них используется?

r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

— tim.farkas
источник

Я думаю, что разница в том, какие тесты вычисляются. car::Anovaиспользует тесты Вальда, тогда как drop1исправляет модель, отбрасывая отдельные термины. Джон Фокс однажды написал мне, что тесты Уолда и тесты из усовершенствованных моделей с использованием тестов отношения правдоподобия (т. Е. Стратегии из drop1) согласуются для линейных, но не обязательно нелинейных моделей. К сожалению, это письмо не было в списке и не содержало ссылок. Но я знаю, что в его книге есть глава о тестах Вальда, которая может содержать необходимую информацию.

Помощь car::Anovaговорит:

Тесты типа II рассчитываются по принципу маржинальности, проверяя каждый термин за всеми другими, за исключением игнорирования родственников высшего порядка; так называемые тесты типа III нарушают маржинальность, проверяя каждый член в модели после всех остальных. Это определение тестов типа II соответствует тестам, разработанным SAS для моделей дисперсионного анализа, где все предикторы являются факторами, но не в более общем смысле (т. Е. Когда существуют количественные предикторы). Будьте очень осторожны при формулировании модели для испытаний типа III, иначе проверенные гипотезы не будут иметь смысла.

К сожалению, я не могу ответить вам на второй или третий вопрос, поскольку я также хотел бы знать это.

Обновление комментария к комментарию :

Для обобщенных смешанных моделей тесты Вальда, LR и F отсутствуют. Anovaпросто позволяет "chisq"и "F"тестирует смешанные модели (т.е. "mer"объекты, возвращаемые lmer). Раздел использования говорит:

## S3 method for class 'mer'
Anova(mod, type=c("II","III", 2, 3), 
    test.statistic=c("chisq", "F"), vcov.=vcov(mod), singular.ok, ...)

Но поскольку F-тесты для merобъектов рассчитываются с помощью pbkrtest, который, насколько мне известно, работает только для линейных смешанных моделей, Anovaдля GLMM должны всегда возвращаться chisq(следовательно, вы не видите никакой разницы).

Обновление относительно вопроса:

Мой предыдущий ответ только что попытался ответить на ваш главный вопрос, разницу между Anova()и drop1(). Но теперь я понимаю, что вы хотите проверить, являются ли определенные фиксированные эффекты значительными или нет. В FAQ по смешанному моделированию R-sig говорится следующее:

Тесты отдельных параметров

От худшего к лучшему:

Wald Z-тесты

Для сбалансированных вложенных LMM, где можно вычислить df: t-тесты Вальда

Проверка отношения правдоподобия, либо путем настройки модели так, чтобы параметр можно было изолировать / отбросить (через anova или drop1), либо с помощью вычисления профилей правдоподобия

MCMC или параметрические доверительные интервалы начальной загрузки

Тесты эффектов (то есть тестирование нескольких параметров одновременно равными нулю)

От худшего к лучшему:

Тесты хи-квадрат Вальда (например, автомобиль :: Anova)

Проверка отношения правдоподобия (через anova или drop1)

Для сбалансированных вложенных LMM, где можно вычислить df: условные F-тесты

Для LMM: условные F-тесты с коррекцией df (например, Kenward-Roger в пакете pbkrtest)

MCMC или параметрические, или непараметрические, начальные сравнения (непараметрическая начальная загрузка должна быть тщательно реализована для учета факторов группировки)

(выделение добавлено)

Это указывает на то, что ваш подход к использованию car::Anova()для GLMM, как правило, не рекомендуется, но следует использовать подход с использованием MCMC или начальной загрузки. Я не знаю , если pvals.fncиз languageRпакета ковшики с GLMMs, но стоит попробовать.

— Хенрик
источник

Спасибо, Хенрик. Anova () может вычислить три разных теста: Wald, LR и F. Я перепробовал все три, но это не имеет значения, что я нахожу странным. У меня такое чувство, что функция откажется использовать тесты, которые, по ее мнению, не подходят для данных ...

— tim.farkas