Требуется очень небольшая корреляция между независимыми переменными, чтобы вызвать это.
Чтобы понять почему, попробуйте следующее:
Нарисуйте 50 наборов из десяти векторов с коэффициентами в стандартной нормали.(x1,x2,…,x10)
Вычислить для . Это делает индивидуально нормальным, но с некоторыми корреляциями между ними.yi=(xi+xi+1)/2–√i=1,2,…,9yi
Вычислить . Обратите внимание, что .w=x1+x2+⋯+x10w=2–√(y1+y3+y5+y7+y9)
Добавьте некоторую независимую нормально распределенную ошибку в . Немного поэкспериментировав, я обнаружил, что с работает довольно хорошо. Таким образом, является суммой плюс некоторая ошибка. Кроме того , сумма некоторых в плюс та же ошибка.z = w + ε ε ∼ N ( 0 , 6 ) z x i y iwz=w+εε∼N(0,6)zxiyi
Мы будем считать независимыми переменными, а зависимой переменной. zyiz
Вот матрица диаграммы рассеяния одного такого набора данных с вдоль верха и слева и в порядке.y яzyi
Ожидаемые корреляции между и являются при и в противном случае. Реализованные корреляции колеблются до 62%. Они появляются как более узкие диаграммы рассеяния рядом с диагональю.у J +1 / 2 | я - J | = 1 0yiyj1/2|i−j|=10
Посмотрите на регрессию против :y яzyi
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 9, 40) = 4.57
Model | 1684.15999 9 187.128887 Prob > F = 0.0003
Residual | 1636.70545 40 40.9176363 R-squared = 0.5071
-------------+------------------------------ Adj R-squared = 0.3963
Total | 3320.86544 49 67.7727641 Root MSE = 6.3967
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.184007 1.264074 1.73 0.092 -.3707815 4.738795
y2 | 1.537829 1.809436 0.85 0.400 -2.119178 5.194837
y3 | 2.621185 2.140416 1.22 0.228 -1.704757 6.947127
y4 | .6024704 2.176045 0.28 0.783 -3.795481 5.000421
y5 | 1.692758 2.196725 0.77 0.445 -2.746989 6.132506
y6 | .0290429 2.094395 0.01 0.989 -4.203888 4.261974
y7 | .7794273 2.197227 0.35 0.725 -3.661333 5.220188
y8 | -2.485206 2.19327 -1.13 0.264 -6.91797 1.947558
y9 | 1.844671 1.744538 1.06 0.297 -1.681172 5.370514
_cons | .8498024 .9613522 0.88 0.382 -1.093163 2.792768
------------------------------------------------------------------------------
F-статистика очень значительна, но ни одна из независимых переменных не имеет значения, даже без какой-либо корректировки для всех 9 из них.
Чтобы увидеть, что происходит, рассмотрим регрессию против нечетного :y яzyi
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 5, 44) = 7.77
Model | 1556.88498 5 311.376997 Prob > F = 0.0000
Residual | 1763.98046 44 40.0904649 R-squared = 0.4688
-------------+------------------------------ Adj R-squared = 0.4085
Total | 3320.86544 49 67.7727641 Root MSE = 6.3317
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.943948 .8138525 3.62 0.001 1.303736 4.58416
y3 | 3.403871 1.080173 3.15 0.003 1.226925 5.580818
y5 | 2.458887 .955118 2.57 0.013 .533973 4.383801
y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501
y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112
_cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034
------------------------------------------------------------------------------
Некоторые из этих переменных очень важны, даже с поправкой Бонферрони. (Гораздо больше можно сказать, посмотрев на эти результаты, но это отвлечет нас от основного момента.)
zy2,y4,y6,y8z
yi
Из этого можно сделать один вывод : если в модель включено слишком много переменных, они могут маскировать действительно значимые переменные. Первым признаком этого является очень значимая общая F-статистика, сопровождаемая не столь значимыми t-тестами для отдельных коэффициентов. (Даже если некоторые из переменных являются индивидуально значимыми, это не означает автоматически, что другие не являются. Это один из основных недостатков стратегий поэтапной регрессии: они становятся жертвами этой проблемы маскирования.) Кстати, факторы инфляции дисперсиив первом диапазоне регрессии от 2,55 до 6,09 со средним значением 4,79: просто на границе диагностики некоторой мультиколлинеарности в соответствии с наиболее консервативными эмпирическими правилами; значительно ниже порога в соответствии с другими правилами (где 10 - верхний предел).