Является ли хорошей практикой стандартизировать ваши данные в регрессии с панельными / продольными данными?

В общем, я стандартизирую свои независимые переменные в регрессиях, чтобы правильно сравнить коэффициенты (таким образом, они имеют одинаковые единицы: стандартные отклонения). Однако с панельными / продольными данными я не уверен, как мне следует стандартизировать мои данные, особенно если я оцениваю иерархическую модель.

Чтобы понять, почему это может быть потенциальной проблемой, предположим, что у вас есть особей, измеренных по периодам и вы измерили зависимую переменную, и одну независимую переменную , Если вы выполняете полную регрессию пула, тогда можно стандартизировать ваши данные следующим образом: $i = 1, \ldots, n$ $t=1,\ldots, T$ $y_{i,t}$ $x_{i,t}$ , так как он не изменит t-статистику. С другой стороны, если вы подходите к нерегулярной регрессии, т. Е. По одной регрессии для каждого человека, то вам следует стандартизировать данные только по отдельным лицам, а не по всему набору данных (в коде R): $x.z = (x- \text{mean}(x))/\text{sd}(x)$

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

Однако, если вы подходите к простой иерархической модели с различным перехватом по отдельным лицам, то вы используете оценку усадки, т. Е. Вы оцениваете модель между объединенной и не объединенной регрессией. Как мне стандартизировать мои данные? Используя все данные как объединенную регрессию? Использование только отдельных лиц, как в случае без пула?

r regression standardization

— Маноэль Галдино
источник

Ответы:

Я не вижу, чтобы стандартизация была хорошей идеей в обычной регрессии или в продольной модели. Это затрудняет получение прогнозов и не решает проблему, которая обычно требует решения. А что если у вас есть и в модели. Как вы стандартизируете ? Что если в модели есть непрерывная переменная и двоичная переменная? Как вы стандартизируете двоичную переменную? Конечно, не из-за стандартного отклонения, из-за которого переменные с низкой распространенностью приобретают большую важность. $x$ $x^2$ $x^2$

В общем, лучше всего интерпретировать эффекты модели по первоначальной шкале . $x$

— Фрэнк Харрелл
источник

@Frank Harrell - хорошие замечания о проблемах, связанных с условиями, которые вы наметили, но если у вас есть все непрерывные переменные с разными масштабами, то не является ли стандартизация единственным способом сравнения уклонов?

— DQdlM

@ Франц, я полагаю, это зависит от того, какой тип моделей вы используете, но стандартизация переменных-предикторов часто бывает полезна. Центрирование их означает, что перехват становится интерпретируемым как средний прогнозируемый результат, и относительная важность различных предикторов становится более очевидной. Я обычно оставляю двоичные предикторы в покое, но иногда стоит рассмотреть другие варианты масштабирования. Наконец, в некоторых случаях наличие предикторов с сильно отличающимися стандартными отклонениями может привести к проблемам вычислений / сходимости.

— Майкл Бишоп

R^{2}

$R^2$

χ^{2}

$\chi^2$

Если у вас есть бинарные переменные, не стандартизируйте их, только непрерывные. См. Эту статью Гельмана (< stat.columbia.edu/~gelman/research/published/standardizing7.pdf >), предлагающую деление переменных на два стандартных отклонения. В любом случае, это помогает достичь сходимости, если вы подходите по байесовской модели.

— Маноэль Гальдино

x

$x$

x^{2}

$x^{2}$

Существует альтернатива стандартизации для приведения переменных, измеренных в разных шкалах, к одной и той же метрике. Он называется «Пропорция максимального масштабирования» (POMS), и он не смешивается с многомерными распределениями, как это имеет место в z-преобразовании.

Тодд Литтл явно рекомендует POMS вместо z-стандартизации в своей книге по моделированию продольных структурных уравнений. Z-преобразование сопряжено с дополнительными проблемами при работе с продольными данными, см. Здесь: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

— user142548
источник