Я узнал, что, используя vif()
метод car
упаковки, мы можем вычислить степень мультиколлинеарности входных данных в модели. Из википедии , если vif
значение больше, чем 5
тогда, мы можем считать, что вход страдает от проблемы мультиколлинеарности. Например, я разработал модель линейной регрессии с использованием lm()
метода и vif()
дает следующее. Как мы можем видеть, входы ub
, lb
и tb
страдают от мультиколлинеарности.
vif(lrmodel)
tb ub lb ma ua mb sa sb
7.929757 50.406318 30.826721 1.178124 1.891218 1.364020 2.113797 2.357946
Чтобы избежать проблемы мультиколлинеарности и, таким образом, сделать мою модель более устойчивой, я взял взаимодействие между ub
и lb
, и теперь таблица новой модели выглядит следующим образом:
tb ub:lb ma mb sa sb ua
1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218
Не существует большой разницы в R^2
значениях, а также нет большой разницы в ошибках, полученных в результате однократных CV-тестов в обоих вышеупомянутых случаях.
Мои вопросы:
Можно ли избежать проблемы мультиколлинеарности, взяв взаимодействие, как показано выше?
Есть ли более хороший способ представить проблему мультиколлинеарности по сравнению с приведенными выше результатами метода VIF.
Пожалуйста, предоставьте мне свои предложения.
Благодарю.