В настоящее время я использую линейные модели со смешанным эффектом.
Я использую пакет "lme4" в R.
Мои модели принимают форму:
model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect))
Перед запуском моих моделей я проверил возможную мультиколлинеарность между предикторами.
Я сделал это путем:
Создайте план данных из предикторов
dummy_df <- data.frame(predictor1, predictor2)
Используйте функцию «кор» для расчета корреляции Пирсона между предикторами.
correl_dummy_df <- round(cor(dummy_df, use = "pair"), 2)
Если «correl_dummy_df» было больше 0,80, то я решил, что предикатор1 и предиктор2 были слишком сильно коррелированы и не были включены в мои модели.
При чтении появятся более объективные способы проверки мультиколлинеарности.
У кого-нибудь есть совет по этому поводу?
«Коэффициент инфляции дисперсии (VIF)» кажется одним из допустимых методов.
VIF можно рассчитать с помощью функции «corvif» в пакете AED (не кран). Пакет можно найти по адресу http://www.highstat.com/book2.htm . Пакет поддерживает следующую книгу:
Zuur, AF, Ieno, EN, Уокер, Н., Савельев, А.А. и Смит, GM 2009. Модели смешанных эффектов и расширения в экологии с R, 1-е издание. Спрингер, Нью-Йорк.
Похоже, что общее практическое правило заключается в том, что если VIF> 5, мультиколлинеарность между предикторами высока.
Является ли использование VIF более надежным, чем простая корреляция Пирсона?
Обновить
Я нашел интересный блог по адресу:
http://hlplab.wordpress.com/2011/02/24/diagnosing-collinearity-in-lme4/
Блоггер предоставляет полезный код для расчета VIF для моделей из пакета lme4.
Я проверил код, и он прекрасно работает. В моем последующем анализе я обнаружил, что мультиколлинеарность не была проблемой для моих моделей (все значения VIF <3). Это было интересно, учитывая, что ранее я обнаружил высокую корреляцию Пирсона между некоторыми предикторами.
http://highstat.com/Books/BGS/GAMM/RCodeP2/HighstatLibV6.R
AED
пакет был прекращен ; вместо этого, толькоsource("http://www.highstat.com/Book2/HighstatLibV6.R")
дляcorvif
функции. (2) Надеюсь дать реальный ответ, но (a) я полагаю, что VIF учитывает мультиколлинеарность (например, у вас может быть три предиктора, ни один из которых не имеет сильных парных корреляций, но линейная комбинация A и B сильно коррелирует с C ) и (б) у меня есть серьезные сомнения относительно целесообразности отбрасывания коллинеарных терминов; см. Graham Ecology 2003, doi: 10.1890 / 02-3114