Было бы интересно оценить, что расхождение происходит в типе переменных , и, в частности, в типах объясняющих переменных . В типичном ANOVA у нас есть категориальная переменная с различными группами , и мы пытаемся определить, отличается ли измерение непрерывной переменной между группами. С другой стороны, МНК обычно воспринимается как попытка оценить взаимосвязь между непрерывной регрессией или переменной ответа и одним или несколькими регрессорами или объясняющими переменными . В этом смысле регрессия может рассматриваться как другой метод, позволяющий прогнозировать значения на основе линии регрессии.
Тем не менее , это различие не распространяется на ANOVA для остальной части анализа супа дисперсионного алфавита (ANCOVA, MANOVA, MANCOVA); или включение фиктивных переменных в регрессию OLS. Мне неясно, какие именно исторические ориентиры существуют, но похоже, что оба метода выросли в параллельных адаптациях для решения все более сложных моделей.
Например, мы можем видеть, что различия между ANCOVA и OLS с фиктивными (или категориальными) переменными (в обоих случаях с взаимодействиями) в лучшем случае являются косметическими. Прошу прощения за мой уход за пределы в названии вашего вопроса, касающегося множественной линейной регрессии.
В обоих случаях, модель, по существу , совпадает с точкой R , что в функция используется для выполнения ANCOVA . Однако он может быть представлен как отличающийся в отношении включения перехвата, соответствующего первому уровню (или группе) факторной (или категориальной) переменной в регрессионной модели.lm
in1,2,⋯i
X=⎡⎣⎢1n10001n20001n3xn1000xn2000xn3⎤⎦⎥
3
Это соответствует линейной модели:
y=αi+β1xn1+β2xn2+β3xn3+ϵi
αiβ
Представление той же модели в поле регрессии, и в частности в R, рассматривает общий перехват, соответствующий одной из групп, и матрица модели может быть представлена как:
X=⎡⎣⎢⎢⎢⋮J3n,1⋮01n20001n3⋮x⋮0000xn2000xn3⎤⎦⎥⎥⎥
уравнения МНК:
y=β0+μi+β1xn1+β2xn2+β3xn3+ϵi
β0μi
Как видно из матриц модели, представление противоречит фактической идентичности между регрессией и дисперсионным анализом.
Мне нравится в виду проверить это с помощью некоторых строк кода и моих любимых наборов данных mtcars
в R . Я использую lm
для ANCOVA в соответствии с документом Бена Болкера, доступным здесь .
mtcars$cyl <- as.factor(mtcars$cyl) # Cylinders variable into factor w 3 levels
D <- mtcars # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),] # Ordering obs. for block matrices.
model.matrix(lm(mpg ~ wt * cyl, D)) # This is the model matrix for ANCOVA
Что касается части вопроса о том, какой метод использовать (регрессия с R!), Вы можете найти забавным этот онлайновый комментарий, с которым я столкнулся при написании этого поста.