Вы не можете действительно говорить о значимости в этом случае без стандартных ошибок; они масштабируются с переменными и коэффициентами. Кроме того, каждый коэффициент зависит от других переменных в модели, и коллинеарность на самом деле, кажется, увеличивает значение hp и disp.
Изменение масштаба переменных не должно менять значимость результатов вообще. В самом деле, когда я перезапускаю регрессию (с переменными, как есть, и нормализуется путем вычитания среднего значения и деления на стандартные ошибки), каждая оценка коэффициента (кроме константы) имела точно такой же t-стат, что и до масштабирования, и F-критерий общего значения остался точно таким же.
То есть, даже если все переменные были масштабированы так, чтобы иметь среднее значение нуля и дисперсию 1, стандартная ошибка для каждого из коэффициентов регрессии отсутствует, поэтому просто посмотрите на величину каждого коэффициента в стандартизированная регрессия все еще вводит в заблуждение относительно значимости.
Как объяснялся Дэвид Masip, видимый размер коэффициентов имеет обратную связь с величиной точек данных. Но даже тогда, когда коэффициенты на ИЗОБ и л.с. огромны, они по-прежнему существенно не отличается от нуля.
На самом деле, л.с. и дисп сильно коррелированны друг с другом, г = .79, поэтому стандартные ошибки на этих коэффициентах особенно высок по сравнению с коэффициентом величины, потому что они настолько коллинеарным. В этой регрессии они делают странные противовесы, поэтому у каждого есть положительный коэффициент, а у другого отрицательный коэффициент; это похоже на случай переобучения и, кажется, не имеет смысла.
Хороший способ увидеть, какие переменные объясняют наибольшее изменение миль на галлон, - это (скорректированный) R-квадрат. Буквально процент изменения y объясняется изменением переменных x. (Скорректированный R-квадрат включает небольшое наказание за каждую дополнительную переменную x в уравнении, чтобы уравновесить перенастройку.)
Хороший способ увидеть, что важно - в свете других переменных - посмотреть на изменение скорректированного R-квадрата, когда вы пропустите эту переменную из регрессии. Это изменение представляет собой процент дисперсии в зависимой переменной, которую объясняет этот фактор, после того, как другие переменные остаются неизменными. (Формально вы можете проверить, имеют ли значение пропущенные переменные с помощью F-критерия ; именно так работают ступенчатые регрессии для выбора переменных.)
Чтобы проиллюстрировать это, я запустил отдельные линейные регрессии для каждой из переменных в отдельности, предсказав mpg. Одна только переменная wt объясняет 75,3% вариации миль на галлон, и ни одна переменная не объясняет больше. Тем не менее, многие другие переменные соотносятся с wt и объясняют некоторые из этих же вариаций. (Я использовал устойчивые стандартные ошибки, которые могут привести к небольшим различиям в стандартных расчетах ошибок и значимости, но не влияют на коэффициенты или R-квадрат.)
+------+-----------+---------+----------+---------+----------+-------+
| | coeff | se | constant | se | adj R-sq | R-sq |
+------+-----------+---------+----------+---------+----------+-------+
| cyl | -0.852*** | [0.110] | 0 | [0.094] | 0.717 | 0.726 |
| disp | -0.848*** | [0.105] | 0 | [0.095] | 0.709 | 0.718 |
| hp | -0.776*** | [0.154] | 0 | [0.113] | 0.589 | 0.602 |
| drat | 0.681*** | [0.123] | 0 | [0.132] | 0.446 | 0.464 |
| wt | -0.868*** | [0.106] | 0 | [0.089] | 0.745 | 0.753 |
| qsec | 0.419** | [0.136] | 0 | [0.163] | 0.148 | 0.175 |
| vs | 0.664*** | [0.142] | 0 | [0.134] | 0.422 | 0.441 |
| am | 0.600*** | [0.158] | 0 | [0.144] | 0.338 | 0.360 |
| gear | 0.480* | [0.178] | 0 | [0.158] | 0.205 | 0.231 |
| carb | -0.551** | [0.168] | 0 | [0.150] | 0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+
Когда все переменные находятся там вместе, R-квадрат равен 0,869, а скорректированный R-квадрат равен 0,807. Таким образом, добавление еще 9 переменных к весу просто объясняет еще 11% вариации (или просто 5% больше, если мы исправим переоснащение). (Многие из переменных объясняют некоторые из тех же вариаций в миль на галлон, что и у wt.) И в этой полной модели единственный коэффициент с p-значением менее 20% - это wt при p = 0,089.