Я серьезно сомневаюсь, может ли центрирование или стандартизация исходных данных действительно смягчить проблему мультиколлинеарности, когда в регрессию включены квадратные термины или другие термины взаимодействия, как некоторые из вас, в особенности Ганг, рекомендовали выше.
Чтобы проиллюстрировать мою точку зрения, давайте рассмотрим простой пример.
Предположим, что истинная спецификация принимает следующую форму, так что
yi=b0+b1xi+b2x2i+ui
Таким образом, соответствующее уравнение МНК определяется как
yi=yi^+ui^=b0^+b1^xi+b2^x2i+ui^
yi^yiuib0^b2^b0b2zi=x2i
xx2yiyi перед добавлением квадратов.
Довольно легко показать, что среднее значение задано следующим образом:
ˉ y = ^ b 0 + ^ byi
y¯=b0^+b1^x¯+b2^z¯
y¯x¯z¯yixizi
y¯yi
yi−y¯=b1^(xi−x¯)+b2^(zi−z¯)+ui^
yi−y¯xi−x¯zi−z¯b1^b2^
xx2xx2corr(x,z)=corr(x−x¯,z−z¯)
Таким образом, если мое понимание центрирования правильное, то я не думаю, что центрирование данных могло бы помочь смягчить проблему MC, вызванную включением квадратов или других терминов более высокого порядка в регрессию.
Буду рад услышать ваше мнение!