Переменные часто корректируются (например, стандартизируются) перед созданием модели - когда это хорошая идея, а когда плохая?


57

В каких обстоятельствах вы хотите или не хотите масштабировать или стандартизировать переменную до подбора модели? И каковы преимущества / недостатки масштабирования переменной?


Очень похожий вопрос здесь: stats.stackexchange.com/q/7112/3748 , что еще вы ищете?
Майкл Бишоп

Да - я хотел бы знать о моделях в целом, а не только о линейной модели
Эндрю

1
Существует множество возможных моделей и возможных применений моделей. Если вы можете сделать ваши вопросы более конкретными и уменьшить дублирование с другими вопросами, это лучше.
Майкл Бишоп

В дополнение к ссылке, приведенной выше, интерес представляет вопрос: когда нужно центрировать ваши данные, когда нужно стандартизировать .
gung - Восстановить Монику

Ответы:


37

Стандартизация - все о весах различных переменных для модели. Если вы выполняете стандартизацию «только» ради численной стабильности, могут быть преобразования, которые дают очень похожие числовые свойства, но различаются физическим смыслом, который может быть гораздо более подходящим для интерпретации. То же самое относится и к центрированию, которое обычно является частью стандартизации.

Ситуации, когда вы, вероятно, хотите стандартизировать:

  • переменные разные физические величины
  • и числовые значения находятся на очень разных масштабах
  • и нет «внешнего» знания о том, что переменные с высоким (числовым) разбросом следует считать более важными.

Ситуации, когда вы можете не захотеть стандартизировать:

  • если переменные имеют одинаковую физическую величину и имеют (примерно) одинаковую величину, например
    • относительные концентрации разных химических веществ
    • оптические плотности на разных длинах волн
    • интенсивность излучения (в остальном одинаковые условия измерения) на разных длинах волн
  • Вы определенно не хотите стандартизировать переменные, которые не изменяются между выборками (базовыми каналами) - вы просто взорвали бы шум измерений (вы можете вместо этого исключить их из модели)
  • Если у вас есть такие физически связанные переменные, ваш шум измерения может быть примерно одинаковым для всех переменных, но интенсивность сигнала меняется гораздо больше. Т.е. переменные с низкими значениями имеют более высокий относительный шум. Стандартизация взорвала бы шум. Другими словами, вам, возможно, придется решить, хотите ли вы стандартизировать относительный или абсолютный шум.
  • Могут быть физически значимые значения, которые вы можете использовать для привязки вашего измеренного значения, например, вместо передаваемой интенсивности используйте процент передаваемой интенсивности (коэффициент пропускания T).

Вы можете сделать что-то «между» и преобразовать переменные или выбрать единицу, чтобы новые переменные все еще имели физический смысл, но вариация числового значения не была такой разной, например

  • если вы работаете с мышами, используйте массу тела g и длину в см (ожидаемый диапазон отклонения около 5 для обоих) вместо базовых единиц измерения кг и м (ожидаемый диапазон отклонения 0,005 кг и 0,05 м - разность на порядок меньше).
  • A=log10T

Аналогично для центрирования:

  • Там могут быть (физически / химически / биологически / ...) значимые исходные значения доступны (например, контроль, жалюзи и т. Д.)
  • Значит ли это значение на самом деле? (Средний человек имеет один яичник и одно яичко)

+1 и принято из-за полезного списка, когда и когда не слишком стандартизировать, спасибо
Эндрю

6
+1 за «Средний человек имеет один яичник и одно яичко» (& также за остальную часть ответа ;-).
gung - Восстановить Монику

1
@cbeleites, есть ли вероятность, что вы могли бы предоставить ссылку на ресурс, объясняющий базовые каналы в контексте, который вы использовали в своем ответе? Я не слышал этот термин раньше, и я получаю результаты поиска, которые не помогают понять, как вы используете этот термин здесь. Спасибо!
Махоня

1
1

9

Перед стандартизацией я всегда спрашиваю себя: «Как я буду интерпретировать результаты?» Если есть способ проанализировать данные без преобразования, это может быть предпочтительнее исключительно с точки зрения интерпретации.


7

В общем, я не рекомендую масштабирование или стандартизацию, если это не является абсолютно необходимым. Преимущество или привлекательность такого процесса заключается в том, что, когда объясняющая переменная имеет совершенно другое физическое измерение и величину, чем переменная отклика, масштабирование посредством деления на стандартное отклонение может помочь с точки зрения численной стабильности и позволяет сравнивать эффекты по нескольким объясняющие переменные. При наиболее распространенной стандартизации эффект переменной - это величина изменения ответной переменной, когда пояснительная переменная увеличивается на одно стандартное отклонение; это также указывает на то, что значение эффекта переменной (величина изменения в переменной отклика, когда объясняющая переменная увеличивается на одну единицу) будет потеряно, хотя статистическое значение для объясняющей переменной остается неизменным. Тем не мение, когда взаимодействие рассматривается в модели, масштабирование может быть очень проблематичным даже для статистического тестирования из-за сложности, связанной с корректировкой стохастического масштабирования при вычислении стандартной ошибки эффекта взаимодействия (Preacher, 2003). По этой причине масштабирование на стандартное отклонение (или стандартизацию / нормализацию), как правило, не рекомендуется, особенно когда речь идет о взаимодействиях.

Preacher, KJ, Curran, PJ, and Bauer, DJ, 2006. Вычислительные инструменты для исследования эффектов взаимодействия при множественной линейной регрессии, многоуровневом моделировании и анализе скрытых кривых. Журнал образовательной и поведенческой статистики, 31 (4), 437-448.


4
Я подвергаю сомнению ваше утверждение о том, что стандартизация предикторов «как правило, не рекомендуется, особенно когда речь идет о взаимодействии». Ни Гельман, ни Хилл, ни Рауденбуш и Брик не упоминают эту проблему в своих текстах. Но когда у меня будет возможность, я с интересом посмотрю на упомянутые вами ссылки.
Майкл Бишоп

Если в качестве переменной масштабирования мы используем калибровочный юниверс std, то масштабирование не является стохастическим.
Адам

Может ли кто-нибудь подтвердить, вредно ли масштабирование в условиях взаимодействия? Это, кажется, не было решено в вышеупомянутом обсуждении.
Talik3233
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.