Это зависит от цели вывода. Если вы хотите сделать вывод о том, существует ли взаимодействие, например, в причинном контексте (или, в более общем случае, если вы хотите интерпретировать коэффициент взаимодействия), эта рекомендация вашего преподавателя имеет смысл, и она исходит из Дело в том, что неправильная спецификация функциональной формы может привести к неправильным выводам о взаимодействии .
Вот простой пример, в котором нет члена взаимодействия между x1 и x2 в структурном уравнении y , но если вы не включите квадратный член x1 , вы ошибочно заключите, что x1 взаимодействует с x2 когда на самом деле это не так.
set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))
Call:
lm(formula = y ~ x1 + x2 + x1:x2)
Residuals:
Min 1Q Median 3Q Max
-3.7781 -0.8326 -0.0806 0.7598 7.7929
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.30116 0.04813 6.257 5.81e-10 ***
x1 1.03142 0.05888 17.519 < 2e-16 ***
x2 1.01806 0.03971 25.638 < 2e-16 ***
x1:x2 0.63939 0.02390 26.757 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared: 0.7935, Adjusted R-squared: 0.7929
F-statistic: 1276 on 3 and 996 DF, p-value: < 2.2e-16
Это может быть интерпретировано как просто случай пропущенного смещения переменной, и здесь x21 - пропущенная переменная. Если вы вернетесь назад и включите квадрат в свой регресс, видимое взаимодействие исчезнет.
summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))
Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))
Residuals:
Min 1Q Median 3Q Max
-3.4574 -0.7073 0.0228 0.6723 3.7135
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0419958 0.0398423 -1.054 0.292
x1 1.0296642 0.0458586 22.453 <2e-16 ***
x2 1.0017625 0.0309367 32.381 <2e-16 ***
I(x1^2) 1.0196002 0.0400940 25.430 <2e-16 ***
x1:x2 -0.0006889 0.0313045 -0.022 0.982
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared: 0.8748, Adjusted R-squared: 0.8743
F-statistic: 1739 on 4 and 995 DF, p-value: < 2.2e-16
Разумеется, это рассуждение относится не только к квадратичным терминам, но и к неправильной спецификации функциональной формы в целом. Цель здесь состоит в том, чтобы соответствующим образом смоделировать функцию условного ожидания для оценки взаимодействия. Если вы ограничиваете себя моделированием с линейной регрессией, то вам нужно будет включить эти нелинейные термины вручную. Но альтернативой является использование более гибкого регрессионного моделирования, такого как, например, регрессия гребня ядра .