Линейная регрессия и масштабирование данных

10

На следующем графике показаны коэффициенты, полученные с помощью линейной регрессии ( mpgв качестве целевой переменной и всех других в качестве предикторов).

Для набора данных mtcars ( здесь и здесь ) как с масштабированием данных, так и без него:

Как мне интерпретировать эти результаты? Переменные hpи dispзначимы только в том случае, если данные масштабируются. Существуют amи qsecодинаково важны или amважнее qsec? Какую переменную следует назвать важными определяющими факторами mpg?

Спасибо за ваше понимание.

feature-selection linear-regression feature-scaling

— rnso
источник

Если вы не возражаете, можете ли вы просто запустить несколько разных моделей и проверить, какие функции действительно важны? Масштабирование данных выполняется, когда у нас действительно очень разные масштабы для разных столбцов, и они сильно отличаются от вашего графика (хорошие графики), и совершенно очевидно, что масштабирование помогло модели найти реальные представления о данных, как без масштабирования. У модели нет другого выбора, кроме как придать больший вес переменной, которая имеет большие масштабы, при условии, что то, что вы предсказываете, также является немного большим числом ...

— Aditya

Спасибо за ваш комментарий на участке. Я не уверен, что вы подразумеваете под "запустить несколько разных моделей". Можете ли вы выяснить, какие функции действительно важны, используя некоторые другие методы, такие как нейронная сеть, чтобы потом можно было сравнить их с результатами линейной регрессии.

— rnso

Извините за то , что неясно, что я имел в виду, попробовать различные алгоритмы мл , как дерево на основе и т.д. , и сравнить все их особенности важностей ..

— Адитья

4

Дело в том, что коэффициенты л.с. и DISP являются низкими, когда данные немасштабированная и высокий уровень, когда данные масштабируются означает, что эти переменные помогают объясняющие зависимой переменной, но их величина велика, поэтому коэффициенты в немасштабированного случае должны быть низкими.

С точкой зрения «важности», я бы сказал, что абсолютное значение коэффициентов в масштабируются случае является хорошим показателем важности, более чем в немасштабированном случае, поскольку величина переменного также актуальна, и он должен не.

Конечно, более важной переменной является вес.

— Дэвид Масип
источник

4

Вы не можете действительно говорить о значимости в этом случае без стандартных ошибок; они масштабируются с переменными и коэффициентами. Кроме того, каждый коэффициент зависит от других переменных в модели, и коллинеарность на самом деле, кажется, увеличивает значение hp и disp.

Изменение масштаба переменных не должно менять значимость результатов вообще. В самом деле, когда я перезапускаю регрессию (с переменными, как есть, и нормализуется путем вычитания среднего значения и деления на стандартные ошибки), каждая оценка коэффициента (кроме константы) имела точно такой же t-стат, что и до масштабирования, и F-критерий общего значения остался точно таким же.

То есть, даже если все переменные были масштабированы так, чтобы иметь среднее значение нуля и дисперсию 1, стандартная ошибка для каждого из коэффициентов регрессии отсутствует, поэтому просто посмотрите на величину каждого коэффициента в стандартизированная регрессия все еще вводит в заблуждение относительно значимости.

Как объяснялся Дэвид Masip, видимый размер коэффициентов имеет обратную связь с величиной точек данных. Но даже тогда, когда коэффициенты на ИЗОБ и л.с. огромны, они по-прежнему существенно не отличается от нуля.

На самом деле, л.с. и дисп сильно коррелированны друг с другом, г = .79, поэтому стандартные ошибки на этих коэффициентах особенно высок по сравнению с коэффициентом величины, потому что они настолько коллинеарным. В этой регрессии они делают странные противовесы, поэтому у каждого есть положительный коэффициент, а у другого отрицательный коэффициент; это похоже на случай переобучения и, кажется, не имеет смысла.

Хороший способ увидеть, какие переменные объясняют наибольшее изменение миль на галлон, - это (скорректированный) R-квадрат. Буквально процент изменения y объясняется изменением переменных x. (Скорректированный R-квадрат включает небольшое наказание за каждую дополнительную переменную x в уравнении, чтобы уравновесить перенастройку.)

Хороший способ увидеть, что важно - в свете других переменных - посмотреть на изменение скорректированного R-квадрата, когда вы пропустите эту переменную из регрессии. Это изменение представляет собой процент дисперсии в зависимой переменной, которую объясняет этот фактор, после того, как другие переменные остаются неизменными. (Формально вы можете проверить, имеют ли значение пропущенные переменные с помощью F-критерия ; именно так работают ступенчатые регрессии для выбора переменных.)

Чтобы проиллюстрировать это, я запустил отдельные линейные регрессии для каждой из переменных в отдельности, предсказав mpg. Одна только переменная wt объясняет 75,3% вариации миль на галлон, и ни одна переменная не объясняет больше. Тем не менее, многие другие переменные соотносятся с wt и объясняют некоторые из этих же вариаций. (Я использовал устойчивые стандартные ошибки, которые могут привести к небольшим различиям в стандартных расчетах ошибок и значимости, но не влияют на коэффициенты или R-квадрат.)

+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+

Когда все переменные находятся там вместе, R-квадрат равен 0,869, а скорректированный R-квадрат равен 0,807. Таким образом, добавление еще 9 переменных к весу просто объясняет еще 11% вариации (или просто 5% больше, если мы исправим переоснащение). (Многие из переменных объясняют некоторые из тех же вариаций в миль на галлон, что и у wt.) И в этой полной модели единственный коэффициент с p-значением менее 20% - это wt при p = 0,089.

— cactus_pardner
источник