Проблема мультиколлинеарности хорошо изучена в большинстве эконометрических учебников. Более того, в википедии есть хорошая статья, в которой кратко изложены основные вопросы.
На практике каждый начинает помнить о проблеме мультиколлинеарности, если она вызывает некоторые визуальные признаки нестабильности параметров (большинство из них вытекает из (плохой) обратимости матрицы ):ИксTИкс
- большие изменения в оценках параметров при выполнении скользящих регрессий или оценок на меньших подвыборках данных
- При усреднении оценок параметров последние могут оказаться незначительными (с помощью тестов), даже если тест нежелательной регрессии показывает высокую совместную значимость результатовTF
- Статистика VIF (среднее значение вспомогательных регрессий) зависит только от ваших требований к уровню допуска; в большинстве практических предложений допустимый допуск должен быть ниже 0,2 или 0,1, что означает, что соответствующие средние значения вспомогательных регрессий должны быть выше 0,9 или 0,8 до обнаружить проблему. Таким образом, VIF должен быть больше 10-ти и 5-ти значений. В небольших выборках (менее 50 баллов) 5 предпочтительнее, в более крупных вы можете перейти к большим значениям. р2
- Индекс условия является альтернативой VIF, в вашем случае ни VIF, ни CI не показывают, что проблема осталась, поэтому вы можете быть статистически удовлетворены этим результатом, но ...
вероятно, не теоретически, поскольку может случиться (и обычно так), что вам нужны все переменные, чтобы присутствовать в модели. Исключение релевантных переменных (проблема с пропущенными переменными) в любом случае приведет к необъективным и непоследовательным оценкам параметров. С другой стороны, вы можете быть вынуждены включить все переменные фокуса просто потому, что ваш анализ основан на нем. В подходе интеллектуального анализа данных вы более техничны в поиске наилучшего соответствия.
Так что имейте в виду альтернативы (которые я бы использовал сам):
- получить больше точек данных (напомним, что требования VIF меньше для больших наборов данных, а пояснительные переменные, если они медленно меняются, могут изменяться для некоторых критических моментов времени или сечения)
- поиск кратковременных факторов через главные компоненты (последние являются ортогональными комбинациями, поэтому они не являются мультиколлинеарными по конструкции, более того, включают все объясняющие переменные)
- Ридж-регрессия (вносит небольшое смещение в оценки параметров, но делает их очень стабильными)
Некоторые другие хитрости есть в статье вики, указанной выше.