Когда и как использовать стандартизированные объясняющие переменные в линейной регрессии

У меня есть 2 простых вопроса о линейной регрессии:

Когда рекомендуется стандартизировать объясняющие переменные?
Как только можно выполнить оценку с использованием стандартизированных значений, как можно прогнозировать с помощью новых значений (как следует стандартизировать новые значения)?

Некоторые ссылки будут полезны.

Если ваше программное обеспечение хорошо написано, оно автоматически стандартизируется внутри, чтобы избежать проблем с числовой точностью. Вы не должны делать ничего особенного.

— whuber

Обратите внимание, что следующая ветка имеет отношение и будет представлять интерес: когда следует центрировать свои данные и когда следует стандартизировать? ,

— gung - Восстановить Монику

Обратите внимание, что следующие темы связаны и будут представлять интерес: когда следует центрировать свои данные и когда следует стандартизировать? , & Переменные часто корректируются (например, стандартизируются) перед созданием модели - когда это хорошая идея, а когда плохая? ,

— gung - Восстановить Монику

Ответы:

Хотя терминология спорный вопрос, я предпочитаю называть «объяснительные» переменные, «прогнозирующих» переменных.

Когда стандартизировать предикторы:

Большое количество программного обеспечения для выполнения множественной линейной регрессии будет предоставлять стандартизированные коэффициенты, которые эквивалентны нестандартным коэффициентам, где вы вручную стандартизируете предикторы и переменную ответа (конечно, звучит так, будто вы говорите только о стандартизированных предикторах).
Я считаю, что стандартизация является полезным инструментом для придания регрессионным уравнениям большей значимости. Это особенно верно в тех случаях, когда метрика переменной не имеет значения для человека, интерпретирующего уравнение регрессии (например, психологическая шкала на произвольной метрике). Он также может быть использован для облегчения сопоставимости относительной важности предикторных переменных (хотя существуют другие более сложные подходы для оценки относительной важности; см. Мой пост для обсуждения ). В тех случаях, когда метрика имеет значение для человека, интерпретирующего уравнение регрессии, нестандартные коэффициенты часто являются более информативными.
Я также думаю, что использование стандартизированных переменных может отвлечь внимание от того факта, что мы не думали о том, как сделать метрику переменной более значимой для читателя.
Эндрю Гельман может сказать кое-что по этой теме. См. Его страницу по стандартизации, например, и Gelman (2008, Stats Med, FREE PDF) в частности.

Прогноз на основе стандартизации:

Я бы не использовал стандартизированные коэффициенты регрессии для прогнозирования.
Вы всегда можете преобразовать стандартизированные коэффициенты в нестандартные коэффициенты, если вы знаете среднее значение и стандартное отклонение переменной предиктора в исходной выборке.

— Джером англим
источник

+1, но почему бы вам не использовать нестандартные коэффициенты регрессии для прогнозирования?

— OneStop

(+1) Что касается оценки важности переменных, я думаю, что пакет relayimpo R хорошо работает (но см. Начало работы с современным подходом к регрессии ). Была также хорошая статья Дэвида В. Будеску об анализе доминирования (в свободном доступе по запросу).

— CHL

@onestep упс. опечатка. Теперь это изменилось.

— Джером Энглим

@Jeromy, Не могли бы вы рассказать, почему вы не используете стандартизированные коэффициенты регрессии для прогнозирования?

— Майкл Бишоп

@MichaelBishop Я думаю о контекстах, в которых вы берете свою регрессионную модель и применяете ее для прогнозирования на основе выборочных данных. В общем, вам нужны нестандартные прогнозы. Кроме того, средние и стандартные отклонения могут меняться в зависимости от образца; таким образом, использование нестандартных предикторов должно дать более значимые результаты.

— Jeromy Anglim

-4

Позвольте мне ответить коротким ответом, тест может совпадать с превосходным ответом, написанным ранее.

Всегда стандартизировать, что позволяет лучше интерпретировать регрессию, особенно коэффициенты регрессии.
Для новых данных, которые не стандартизированы, я рекомендую вам сохранить значения, которые вы использовали для каждой стандартизируемой переменной, такие как максимум и минимум, а затем выполнить то же преобразование, которое вы делали в наборе данных отверстий ранее, но только для этого один экземпляр.

— Мариана Софер
источник