Как добавление второго IV может сделать первое IV значимым?

64

У меня, наверное, простой вопрос, но он меня сейчас озадачивает, поэтому я надеюсь, что вы мне поможете.

У меня есть модель регрессии наименьших квадратов, с одной независимой переменной и одной зависимой переменной. Отношения не значительны. Теперь я добавляю вторую независимую переменную. Теперь связь между первой независимой переменной и зависимой переменной становится существенной.

Как это работает? Это, вероятно, демонстрирует некоторую проблему с моим пониманием, но для меня, но я не вижу, как добавление этой второй независимой переменной может сделать первую значимой.

— EvKohl
источник

4

Это очень широко обсуждаемая тема на этом сайте. Вероятно, это связано с коллинеарностью. Сделайте поиск для "коллинеарности", и вы найдете десятки соответствующих тем. Предлагаю прочитать некоторые ответы на stats.stackexchange.com/questions/14500/…

— Макрос

3

возможные дубликаты значимых предикторов становятся незначимыми при множественной логистической регрессии . Есть много тем, которые фактически являются дубликатами - это было самое близкое, что я мог найти менее чем за две минуты

— Макрос

3

Это своего рода проблема, противоположная той, которая только что найдена в потоке @macro, но причины очень схожи.

— Питер Флом - Восстановить Монику

3

@ Макро, я думаю, что вы правы, что это может быть дубликат, но я думаю, что проблема здесь немного отличается от 2 вопросов выше. ОП не относится ни к значению модели в целом, ни к переменным, становящимся несущественными с дополнительными IV. Я подозреваю, что речь идет не о мультиколлинеарности, а о силе или, возможно, подавлении.

— gung - Восстановить Монику

3

Кроме того, @gung, подавление в линейных моделях происходит только при наличии коллинеарности - различие заключается в интерпретации, поэтому «речь идет не о мультиколлинеарности, а о возможном подавлении», что вводит в заблуждение дихотомией

— Макро

78

Хотя коллинеарность (переменных предикторов) является возможным объяснением, я хотел бы предположить, что это не вдохновляющее объяснение, потому что мы знаем, что коллинеарность связана с «общей информацией» среди предикторов, поэтому в этой стороне нет ничего таинственного или нелогичного эффект от введения второго коррелированного предиктора в модель.

Затем давайте рассмотрим случай двух предикторов, которые действительно ортогональны : между ними нет абсолютно никакой коллинеарности. Значительное изменение в значении все еще может произойти.

Определите переменные предиктора и и позвольте назвать предиктор . Регрессия против не будет существенной, когда изменение вокруг его среднего значения не будет заметно уменьшено, когда используется в качестве независимой переменной. Когда это изменение в значительной степени связано со второй переменной , однако, ситуация меняется. Напомним, что множественная регрессия против и эквивалентна $X_1$ $X_2$ $Y$ $Y$ $X_1$ $Y$ $X_1$ $X_2$ $Y$ $X_1$ $X_2$

Отдельно регрессируйте и против . $Y$ $X_1$ $X_2$
Регресс остатков против остатков . $Y$ $X_1$

Остатки от первого шага убрали эффект . Когда тесно коррелирует с , это может выявить относительно небольшое количество изменений, которые ранее были замаскированы. Если это изменение связано с , мы получаем значительный результат. $X_2$ $X_2$ $Y$ $X_1$

Возможно, все это можно пояснить на конкретном примере. Для начала давайте Rсгенерируем две ортогональные независимые переменные вместе с некоторой независимой случайной ошибкой : $\varepsilon$

n <- 32
set.seed(182)
u <-matrix(rnorm(2*n), ncol=2)
u0 <- cbind(u[,1] - mean(u[,1]), u[,2] - mean(u[,2]))
x <- svd(u0)$u
eps <- rnorm(n)

(Этот svdшаг гарантирует, что два столбца матрицы x(представляющие и ) ортогональны, исключая коллинеарность как возможное объяснение любых последующих результатов.) $X_1$ $X_2$

Затем создайте как линейную комбинацию и ошибки. Я скорректировал коэффициенты, чтобы получить нелогичное поведение: $Y$ $X$

y <-  x %*% c(0.05, 1) + eps * 0.01

Это реализация модели с случаями. $Y \sim_{iid} N(0.05 X_1 + 1.00 X_2, 0.01^2)$ $n=32$

Посмотрите на две регрессии в вопросе. Во-первых , регрессируйте против : $Y$ $X_1$

> summary(lm(y ~ x[,1]))
...
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002576   0.032423  -0.079    0.937
x[, 1]       0.068950   0.183410   0.376    0.710

Высокое значение p, равное 0,710, показывает, что является полностью несущественным. $X_1$

Затем регрессируйте против и : $Y$ $X_1$ $X_2$

> summary(lm(y ~ x))
...
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.002576   0.001678  -1.535    0.136    
x1           0.068950   0.009490   7.265 5.32e-08 ***
x2           1.003276   0.009490 105.718  < 2e-16 ***

Внезапно, в присутствии , становится очень значительным, на что указывают почти нулевые p-значения для обеих переменных. $X_2$ $X_1$

Мы можем визуализировать это поведение с помощью матрицы рассеяния переменных , и вместе с остатками, использованными в двухэтапной характеристике множественной регрессии, описанной выше. Поскольку и являются ортогональными, остатки будут такими же, как и, следовательно, их не нужно перерисовывать. Мы включим невязки против в матрицу диаграммы рассеяния, давая эту цифру: $X_1$ $X_2$ $Y$ $X_1$ $X_2$ $X_1$ $X_1$ $Y$ $X_2$

lmy <- lm(y ~ x[,2])
d <- data.frame(X1=x[,1], X2=x[,2], Y=y, RY=residuals(lmy))
plot(d)

Вот его рендеринг (с небольшим предварительным подтверждением):

Эта матрица графики имеет четыре строки и четыре столбца, которые я буду отсчитывать сверху вниз и слева направо.

Обратите внимание:

$(X_1, X_2)$
$(X_1, Y)$ $Y$ $X_1$ $\rho$ $0.07$
$(X_2, Y)$ $Y$ $0.996$
$Y$ $X_2$
- $Y$ $X_2$
- $X_1$ $\rho = 0.80$ $X_2$
- $X_2$
- $Y$ $\rho = 0.09$ $Y$ $X_1$

$X_1$ $0.06895$ $0.05$ $X_1$ $X_2$

— Whuber
источник

X_{1}

$X_1$

X_{2}

$X_2$

X_{2}

$X_2$

X_{1}

$X_1$

X_{1}

$X_1$

X_{2}

$X_2$

n = 32

$n=32$

23

Я думаю, что этот вопрос довольно подробно обсуждался ранее на этом сайте, если вы просто знали, где искать. Поэтому я, вероятно, добавлю комментарий позже с некоторыми ссылками на другие вопросы или могу отредактировать его, чтобы дать более полное объяснение, если я не смогу найти какой-либо.

Есть две основные возможности: во-первых, другой IV может поглотить некоторую остаточную изменчивость и, таким образом, увеличить мощность статистического теста первоначального IV. Вторая возможность заключается в том, что у вас есть переменная подавителя. Это очень нелогичная тема, но вы можете найти некоторую информацию здесь *, здесь или в этой отличной ветке резюме .

_{* Обратите внимание, что вам нужно прочитать весь путь до конца, чтобы перейти к части, которая объясняет переменные-подавители, вы можете просто пропустить это, но вам лучше всего будет прочитать все это.}

Редактировать: как и обещал, я добавляю более полное объяснение своей точки зрения относительно того, как другой IV может поглотить некоторую остаточную изменчивость и, таким образом, увеличить мощность статистического теста первоначального IV. @whuber добавил впечатляющий пример, но я подумал, что могу добавить дополнительный пример, который объясняет это явление по-другому, что может помочь некоторым людям более ясно понять это явление. Кроме того, я демонстрирую, что второй IV не должен быть более тесно связан (хотя на практике это почти всегда будет происходить для этого явления).

$t$ $F$ $t$

\begin{array}{lllll} Source & SS & df & MS & F \\ x_{1} & \sum ({\hat{y}}_{i} - \bar{y})^{2} & 1 & \frac{{SS}_{x_{1}}}{{df}_{x_{1}}} & \frac{{MS}_{x_{1}}}{{MS}_{r e s}} \\ Residual & \sum (y_{i} - {\hat{y}}_{i})^{2} & N - (1 + 1) & \frac{{SS}_{r e s}}{{df}_{r e s}} \\ Total & \sum (y_{i} - \bar{y})^{2} & N - 1 \end{array}

$\begin{array}{lllll} &\text{Source} &\text{SS} &\text{df} &\text{MS} &\text{F} \\ \hline &x_1 &\sum(\hat y_i-\bar y)^2 &1 &\frac{\text{SS}_{x_1}}{\text{df}_{x_1}} &\frac{\text{MS}_{x_1}}{\text{MS}_{\rm res}} \\ &\text{Residual} &\sum(y_i-\hat y_i)^2 &N-(1+1) &\frac{\text{SS}_{\rm res}}{\text{df}_{\rm res}} \\ &\text{Total} &\sum(y_i-\bar y)^2 &N-1 \end{array}$

$\bar y$ $y$ $y_i$ $y$ $i$ $\hat y_i$ $i$ $N$

\begin{array}{lllll} Source & SS & df & MS & F \\ x_{1} & \sum ({\hat{y}}_{x_{1 i} {\bar{x}}_{2}} - \bar{y})^{2} & 1 & \frac{{SS}_{x_{1}}}{{df}_{x_{1}}} & \frac{{MS}_{x_{1}}}{{MS}_{r e s}} \\ x_{2} & \sum ({\hat{y}}_{{\bar{x}}_{1} x_{2 i}} - \bar{y})^{2} & 1 & \frac{{SS}_{x_{2}}}{{df}_{x_{2}}} & \frac{{MS}_{x_{2}}}{{MS}_{r e s}} \\ Residual & \sum (y_{i} - {\hat{y}}_{i})^{2} & N - (2 + 1) & \frac{{SS}_{r e s}}{{df}_{r e s}} \\ Total & \sum (y_{i} - \bar{y})^{2} & N - 1 \end{array}

$\begin{array}{lllll} &\text{Source} &\text{SS} &\text{df} &\text{MS} &\text{F} \\ \hline &x_1 &\sum(\hat y_{x_{1i}\bar x_2}-\bar y)^2 &1 &\frac{\text{SS}_{x_1}}{\text{df}_{x_1}} &\frac{\text{MS}_{x_1}}{\text{MS}_{\rm res}} \\ &x_2 &\sum(\hat y_{\bar x_1x_{2i}}-\bar y)^2 &1 &\frac{\text{SS}_{x_2}}{\text{df}_{x_2}} &\frac{\text{MS}_{x_2}}{\text{MS}_{\rm res}} \\ &\text{Residual} &\sum(y_i-\hat y_i)^2 &N-(2+1) &\frac{\text{SS}_{\rm res}}{\text{df}_{\rm res}} \\ &\text{Total} &\sum(y_i-\bar y)^2 &N-1 \end{array}$

$\hat y_{x_{1i}\bar x_2}$ $i$ $x_1$ $x_2$ $x_2$ $\bar x_2$ $x_2$ для некоторого наблюдения, в этом случае не нужно вносить никаких корректировок, но обычно это не так. Обратите внимание, что этот метод для создания таблицы ANOVA действителен, только если все переменные являются ортогональными; это очень упрощенный случай, созданный для пояснительных целей.

$x_2$ $y$ $\bar y$ $x_1$ $x_2$ $SS_{x_1}$ $x_2$ $SS_{x_1}$ $SS_\text{res}$ $\text{df}_{x_2}$ $\text{df}_\text{res}$

$F$ $x_1$ $MS_{x_1}$ $MS_\text{res}$ $MS_{x_1}$ $MS_\text{res}$ $x_2$ $x_2$ $F$ $t$ $x_2$ $x_2$ $MS_\text{res}$ $F$ $x_1$ $p$

$x_2$ $x_1$ $p$ $p$ R

x1 = rep(1:3, times=15)
x2 = rep(1:3, each=15)
cor(x1, x2)     # [1] 0
set.seed(11628)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
model1  = lm(y~x1)
model12 = lm(y~x1+x2)

anova(model1)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  3.9568 0.05307 .
# Residuals 43 57.745  1.3429                  
#  ...
anova(model12)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  4.2471 0.04555 *
# x2         1  5.198  5.1979  4.1546 0.04785 *
# Residuals 42 52.547  1.2511                  
#  ...

$x_2$

set.seed(1201)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
anova(model1)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  3.8461 0.05636 .
# ...
anova(model12)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  4.0740 0.04996 *
# x2         1  3.162  3.1620  3.5478 0.06656 .
# ...

По общему признанию, это не что иное, как драматический пример в посте @ whuber, но они могут помочь людям понять, что здесь происходит.

— Gung - Восстановить Монику
источник

1

(+1) для «Во-первых, другой IV может поглотить некоторую остаточную изменчивость и, таким образом, увеличить мощность статистического теста первоначального IV», который @whuber привел хороший пример

— Макрос

(+1) В начале вы даете три ссылки. Первый (внешний), к сожалению, сломан (ошибка 404). Кроме того: вы говорите, что есть «две основные возможности»: добавленная вторая IV увеличивает мощность для тестирования первой IV (и это именно та ситуация, которая описана Уубером и Уэйном в их ответах) или существует переменная супрессора (который, кстати, первый или второй?). Мой вопрос: действительно ли это две разные ситуации? Или это, по сути, одно и то же, может быть, немного иначе? Было бы здорово, если бы вы могли расширить это.

— говорит амеба: восстанови монику

@amoeba, ttnphns говорит об этом здесь: эффект подавления в регрессии: определение и визуальное объяснение / изображение , и я говорю о подавлении здесь: X и Y не коррелируют, но X является значимым предиктором Y в множественной регрессии. Что это значит?

— gung - Восстановить Монику

@ Gung, спасибо за ответ. Ttnphns начинается с предоставления ссылки на статью, в которой обсуждается подавление и некоторые другие связанные с этим эффекты, и в этой статье утверждается, что «наиболее общепринятое определение переменной-подавителя (Tzelgov & Henik, 1991) [является]« переменной, которая увеличивает предсказательную достоверность другой переменной (или набора переменных) путем ее включения в уравнение регрессии »». Это похоже на то, о чем здесь спрашивал ОП, поэтому я смутился, когда вы сказали, что могут быть две разные причины.

— амеба говорит восстановить Монику

1

@amoeba, дело в том, что у вас есть 2 разных механизма. То есть у вас есть 2 разных базовых DAG. Внешнее проявление может быть схожим, и дополнительная мощность может быть больше или меньше, но причина, по которой 2-я переменная помогает, отличается, потому что отношение 2-й переменной к x1 & y отличается. Если это не ясно, возможно, вам придется задать новый вопрос; трудно сделать слишком много в комментариях.

— gung - Восстановить Монику

17

Такое ощущение, что вопрос ОП можно интерпретировать двумя различными способами:

Математически, как работает OLS, так что добавление независимой переменной может неожиданно изменить результаты?
Как изменение моей модели путем добавления одной переменной может изменить эффект другой независимой переменной в модели?

На вопрос № 1 уже есть несколько хороших ответов. И вопрос № 2 может быть настолько очевидным для экспертов, что они предполагают, что ФП должен задавать вопрос № 1. Но я думаю, что вопрос № 2 заслуживает ответа, который был бы что-то вроде:

Давайте начнем с примера. Скажем, у вас были рост, возраст, пол и т. Д. Нескольких детей, и вы хотели сделать регрессию, чтобы предсказать их рост.

Вы начинаете с наивной модели, которая использует пол в качестве независимой переменной. И это не является статистически значимым. (Как это может быть, вы смешиваете 3-летних и подростков.)

Затем вы добавляете возраст, и вдруг возраст становится не только значимым, но и полом. Как это может быть?

Конечно, в моем примере вы можете ясно видеть, что возраст является важным фактором роста ребенка / подростка. Вероятно, самый важный фактор, о котором у вас есть данные. Пол также может иметь значение, особенно для детей старшего возраста и взрослых, но только пол является плохой моделью того, каков рост ребенка.

Возраст плюс пол - разумная (хотя, конечно, упрощенная) модель, подходящая для этой задачи Если вы добавите другие данные - взаимодействие возраста и пола, рацион питания, рост родителей и т. Д. - вы могли бы сделать еще лучшую модель, которая, конечно, все еще будет упрощена по сравнению с множеством факторов, которые фактически определяют рост ребенка, но опять же все модели являются упрощенной версией реальности. (Карта мира в масштабе 1: 1 не слишком полезна для путешественника.)

Ваша оригинальная модель (только пол) слишком упрощена - настолько упрощена, что по сути сломана. Но это не значит, что пол не полезен в лучшей модели.

РЕДАКТИРОВАТЬ: добавлено предложение gung о: термин взаимодействия возраста и пола.

— Wayne
источник

1

+1, нб, возраст и пол, вероятно, также потребуется термин взаимодействия.

— gung - Восстановить Монику

1

+1 Это отличный пример, потому что он настолько прост и интуитивно понятен, и в то же время точно соответствует ситуации, описанной гораздо более подробно, но только абстрактно @whuber в принятом здесь ответе.

— амеба говорит восстановить монику

10

В этой теме уже три отличных ответа (+1 к каждому). Мой ответ - это расширенный комментарий и иллюстрация к высказыванию @gung (что заняло у меня некоторое время, чтобы понять):

Есть две основные возможности: во-первых, другой IV может поглотить некоторую остаточную изменчивость и, таким образом, увеличить мощность статистического теста первоначального IV. Вторая возможность заключается в том, что у вас есть переменная подавителя.

$x_1$ $x_2$ $y$ $n$ $\mathbb R^n$ $\mathbf y$ $\mathbf x_1$ $\mathbf x_2$ (с «шляпной матрицей» просто являющейся проектором). Читатели, незнакомые с этим подходом, могут посмотреть, например, «Элементы статистического обучения» , раздел 3.2, или во многих других книгах.

"Enhancement"

На следующем рисунке показаны обе возможности, перечисленные @gung. Сначала рассмотрим только синюю часть (т.е. игнорируем все красные линии):

Улучшение и подавление

$\mathbf x_1$ $\mathbf x_2$ $X$ $\mathbf y$ $\hat y$

$\mathbf x_2$ $\mathbf y$ $\mathbf x_1$ $\alpha$ $90^\circ$ $y$ $x_1$ $x_1$

$x_2$ $\mathbf x_1$ $\mathbf x_2$ $x_1$ $x_2$ $x_2$ $y$ $\beta$ $\alpha$ $90^\circ$ $x_1$

Другой способ выразить это состоит в том, что тест сравнивает длину OF с OG, а не с OC, как раньше; OF является крошечным и «незначительным» по сравнению с OC, но достаточно большим, чтобы быть «значительным» по сравнению с OG.

Это именно ситуация представлена @whuber, @gung и @Wayne в своих ответах. Я не знаю, имеет ли этот эффект стандартное название в литературе по регрессии, поэтому я назову его «улучшение».

подавление

$\alpha=90^\circ$ $\beta=90^\circ$ $x_1$

Не так в подавлении.

$x_3$ $x_1$ $x_2$ $\mathbf x_3$ $X$ $\mathbf x_1$ $x_3$ $x_1$ $X$ $\mathbf y$

$x_1$ $x_1$ $y$

— амеба говорит восстановить монику
источник

1

Я нашел, что ваш ответ легче всего понять с помощью геометрической интерпретации. Superb!

— zsljulius

1

α = 0

$\alpha=0$

y

$y$

x_{1}

$x_1$

y

$y$

x_{1}

$x_1$

c o r (x_{1}, y) = 1

$cor(x_1,y)=1$

x_{1}

$x_1$

y

$y$

y

$y$

x_{1}

$x_1$

— Кохелет

α = 90

$\alpha=90$