Перемещение знака при добавлении еще одной переменной в регрессию и с гораздо большей величиной

9

Базовая настройка:

регрессионная модель: где C - вектор управляющих переменных. $y = \text{constant} +\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\alpha C+\epsilon$

Я заинтересован в и ожидаю, что и будут отрицательными. Однако в модели существует проблема мультиколлинеарности, коэффициент корреляции определяется как: corr ( , 0,9345, corr ( , 0,1765, corr ( , 0,3019. $\beta$ $\beta_1$ $\beta_2$ $x_1$ $x_2)=$ $x_1$ $x_3)=$ $x_2$ $x_3)=$

Таким образом, $x_1$ и $x_2$ сильно коррелированы, и они должны фактически предоставлять одну и ту же информацию. Я бегу три регрессии:

исключить переменную $x_1$ ; 2. исключить переменную $x_2$ ; 3. оригинальная модель с $x_1$ и $x_2$ .

Результаты:
для регрессии 1 и 2 он обеспечивает ожидаемый знак для $\beta_2$ и $\beta_1$ соответственно и с аналогичной величиной. И $\beta_2$ и $\beta_1$ значимы на уровне 10% в обеих моделях после того, как я HAC в стандартной ошибке. $\beta_3$ является положительным, но не значимым в обеих моделях.

Но для 3, $\beta_1$ имеет ожидаемый знак, но знак для $\beta_2$ является положительным с величиной, вдвое превышающей $\beta_1$ по абсолютной величине. И оба $\beta_1$ и $\beta_2$ незначительны. Более того, величина для $\beta_3$ уменьшается почти вдвое по сравнению с регрессией 1 и 2.

Мой вопрос:

Почему в 3 знак становится положительным и намного больше, чем по абсолютной величине? Есть ли статистическая причина, по которой может перевернуть знак и имеет большую величину? Или это из-за того, что в моделях 1 и 2 отсутствует проблема с переменной переменной, которая завышена при условии, что положительно влияет на y? Но тогда в регрессионных моделях 1 и 2 оба параметра и должны быть положительными, а не отрицательными, поскольку общий эффект от и в регрессионной модели 3 положительный. $\beta_2$ $\beta_1$ $\beta_2$ $\beta_3$ $x_2$ $\beta_2$ $\beta_1$ $x_1$ $x_2$

regression multicollinearity

— звон
источник

8

Подумайте об этом примере:

Соберите набор данных, основанный на монетах в карманах людей, переменная y / отклик - это общая стоимость монет, переменная x1 - общее количество монет, а x2 - количество монет, которые не являются четвертями (или что-то большее из общих монет для местных).

Легко видеть, что регрессия с x1 или x2 дала бы положительный наклон, но при включении обоих в модель наклон на x2 стал бы отрицательным, так как увеличение количества меньших монет без увеличения общего количества монет означало бы замену крупные монеты с меньшими и уменьшающие общую стоимость (у).

То же самое может произойти в любое время, когда вы коррелировали x переменных, знаки могут легко быть противоположными между тем, когда термин сам по себе и в присутствии других.

— Грег Сноу
источник

3

Вы ответили на свой вопрос - есть коллинеарность.

Немного объяснения: и очень коллинеарны. Но когда вы вводите оба в регрессию, регрессия пытается контролировать влияние других переменных. Другими словами, держите постоянным, что изменения в делают с . Но тот факт, что они так тесно связаны, означает, что этот вопрос глуп, и могут случиться странные вещи. $x_1$ $x_2$ $x_1$ $x_2$ $y$

— Питер Флом
источник

Большое спасибо. Но поскольку мультиколлинеарность в теории только раздувает дисперсию, но не влияет на общую способность прогнозирования высококоррелированных переменных, поэтому я подумал, что в модели 3 должен давать аналогичный результат как в модели 1 или в модели 2, поскольку попарная корреляция x1 x2 с x3 невысока (на самом деле это моя запутанная часть). Но поскольку корреляция может быть очень запутанной, и на практике я не должна этого ожидать, поскольку моя модель является лишь приближением DGP, и корреляция с другими переменными имеет значение.

β_{1} * x 1 + β_{2} * x 2

$\beta_1*x1+\beta_2*x2$

β_{2} * x 2

$\beta_2*x2$

β_{1} * x 1

$\beta_1*x1$

— тин

Если вы хотите разобраться в этом, я очень рекомендую книги Дэвида Белсли.

— Питер Флом

Отлично, спасибо большое !!! Просто просил книги из библиотеки :)

— тин

2

Почему в 3 знак β2 становится положительным и намного больше, чем β1 по абсолютной величине? Есть ли статистическая причина, по которой β2 может перевернуть знак и имеет большую величину?

Простой ответ - нет глубокой причины.

Можно подумать о том, что, когда мультиколлинеарные подходы идеальны, конкретные значения, которые вы в конечном итоге получаете из аппроксимации, становятся все более и более зависимыми от все более мелких деталей данных. Если бы вы взяли один и тот же объем данных из одного и того же базового распределения, а затем подобрали, вы могли бы получить совершенно разные подогнанные значения.

— oneloop
источник