Меняет ли добавление большего количества переменных в многовариантную регрессию коэффициенты существующих переменных?


16

Скажем, у меня есть регрессия с несколькими переменными (несколько независимых переменных), которая состоит из 3 переменных. Каждая из этих переменных имеет заданный коэффициент. Если я решу ввести 4-ю переменную и повторно запустить регрессию, изменятся ли коэффициенты 3 исходных переменных?

В более широком смысле: в регрессии с несколькими переменными (множественными независимыми переменными) влияет ли коэффициент данной переменной на коэффициент другой переменной?


1
Пожалуйста, отредактируйте вопрос, чтобы быть более точным. Вы multivariableимеете в виду несколько независимых переменных («множественная регрессия») или несколько зависимых переменных («многомерная регрессия» или «MAN (C) OVA»)?
ttnphns

1
Если бы ответ был отрицательным, не было бы необходимости делать многомерную регрессию в первую очередь! (мы могли бы просто сделать много
неизменяемых

1
Это полезный момент, @ user603, но я думаю, что все еще может быть место для множественной регрессии, в том смысле, что если бы другие переменные были значимо связаны с ответом (хотя и не объясняющей переменной), они могут уменьшить остаточную дисперсию, ведущую к улучшению сила и точность.
gung - Восстановить Монику

Ответы:


23

Расчетный параметр в регрессионной модели ) изменитсяесли переменные,XJ, добавляются к моделикоторая является: β^iXj

  1. коррелирует с соответствующей переменной этого параметра, (которая уже была в модели), иXя
  2. коррелирует с переменной ответа, Y

Расчетная бета-версия не изменится при добавлении новой переменной, если что-либо из вышеперечисленного не связано. Обратите внимание , что ли они некоррелированных в популяции (т.е. , или р ( X J , Yρ(Xi,Xj)=0 ) не имеет значения. Важно то, что обевыборочные корреляцииравны0. По сути, это никогда не будет иметь место на практике, если вы не работаете с экспериментальными данными, в которых переменными манипулировали так, что они не коррелированы по конструкции. ρ(Xj,Y)=00

Также обратите внимание, что величина изменения параметров может быть не очень значимой (это зависит, по крайней мере частично, от вашей теории). Кроме того, количество, которое они могут изменить, является функцией величин двух корреляций выше.

С другой стороны, не совсем правильно думать об этом явлении как о «коэффициенте данной переменной, на который влияет коэффициент другой переменной». Это не бета-версии , которые влияют друг на друга. Это явление является естественным результатом алгоритма, который статистическое программное обеспечение использует для оценки параметров наклона. Представьте себе ситуацию, когда вызван как X i, так и X j , которые, в свою очередь, связаны друг с другом. Если в модели присутствует только X i , то некоторые изменения Y , связанные с X j, будут ненадлежащим образом отнесены к X i.YXiXjXiYXjXi, Это означает, что значение смещено; это называется опущенной переменной смещением . Xi


Очень хорошее замечание в последнем предложении.
Glen_b


yx2x1yx1x1yY

1
s1

@ Gung большое спасибо за ответ. Вы знаете способ создания таких совершенных данных? я знаю, что это не может произойти в реальной жизни
Флойд

3

Математически возможно, что коэффициенты не изменятся, но маловероятно, что с реальными данными вообще ничего не изменится, даже если все независимые переменные не зависят друг от друга. Но, когда это так, изменения (кроме перехвата) будут стремиться к 0:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

Однако в реальном мире независимые переменные часто связаны друг с другом. В этом случае добавление 4-й переменной в уравнение изменит другие коэффициенты, иногда на много.

Тогда возможны взаимодействия .... но это другой вопрос.


1

В общем, да, добавление переменной меняет более ранние коэффициенты, почти всегда.

Действительно, это, по сути, причина парадокса Симпсона , когда коэффициенты могут меняться, даже менять знак, из-за пропущенных ковариат.

Чтобы этого не произошло, нам нужно, чтобы новые переменные были ортогональны к предыдущим. Это часто случается в разработанных экспериментах, но очень маловероятно, чтобы это происходило в данных, где структура независимых переменных незапланирована.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.