Есть много о коллинеарности в отношении непрерывных предикторов, но не так много, что я могу найти в категориальных предикторах. У меня есть данные этого типа, показанные ниже.
Первый фактор - это генетическая переменная (количество аллелей), второй фактор - категория заболевания. Ясно, что гены предшествуют заболеванию и являются фактором, демонстрирующим симптомы, которые приводят к постановке диагноза. Однако регулярный анализ с использованием сумм квадратов типа II или III, как это обычно делается в психологии с SPSS, пропускает эффект. Анализ сумм квадратов типа I поднимает его, когда вводится соответствующий порядок, поскольку он зависит от порядка. Кроме того, есть вероятность наличия дополнительных компонентов в процессе заболевания, которые не связаны с геном, который недостаточно хорошо идентифицирован с типом II или III, см. Anova (lm1) ниже по сравнению с lm2 или Anova.
Пример данных:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- lm1 с SS типа I мне кажется подходящим способом для анализа данных с учетом исходной теории. Правильно ли мое предположение?
- Я привык явно манипулировать ортогональными конструкциями, где эти проблемы обычно не появляются. Сложно ли убедить рецензентов, что это лучший процесс (если точка 1 верна) в контексте поля, ориентированного на SPSS?
- А что сообщать в разделе статистики? Любой дополнительный анализ, или комментарии, которые должны войти?