VIF, индекс состояния и собственные значения

15

В настоящее время я оцениваю мультиколлинеарность в моих наборах данных.

Какие пороговые значения VIF и индекса состояния ниже / выше указывают на проблему?

VIF: я слышал, что VIF является проблемой. $\geq 10$

После удаления двух проблемных переменных VIF равен для каждой переменной. Нужно ли обрабатывать переменные или этот VIF-файл выглядит нормально? $\leq 3.96$

Индекс состояния: я слышал, что индекс состояния (CI), равный 30 или более, является проблемой. Мой самый высокий CI - 16,66. Это проблема?

Другие вопросы:

Существуют ли какие-либо другие элементы, которые необходимо учитывать?
Есть ли другие вещи, которые мне нужно иметь в виду?

— Аюш Бияни
источник

1

Пожалуйста, уточните вопрос. В частности, это были некоторые комментарии, сделанные ранее: автор @chl - «вы должны рассмотреть возможность написания четких вопросов (они интересны сами по себе), с одной определенной проблемой, и резервировать комментарии для дополнительной информации, относящейся к вашему первоначальному вопросу, а не следовать вверх». @Shane - «Что касается текущего вопроса: его также можно улучшить, потому что он задает много разных вопросов без четкой общей темы. Вас интересует мультиколлинеарность в целом? Или вас интересует VIF? Было бы лучше разобраться в них». для ясности."

5

Проблема мультиколлинеарности хорошо изучена в большинстве эконометрических учебников. Более того, в википедии есть хорошая статья, в которой кратко изложены основные вопросы.

На практике каждый начинает помнить о проблеме мультиколлинеарности, если она вызывает некоторые визуальные признаки нестабильности параметров (большинство из них вытекает из (плохой) обратимости матрицы ): $X^TX$

большие изменения в оценках параметров при выполнении скользящих регрессий или оценок на меньших подвыборках данных
При усреднении оценок параметров последние могут оказаться незначительными (с помощью тестов), даже если тест нежелательной регрессии показывает высокую совместную значимость результатов $t$ $F$
Статистика VIF (среднее значение вспомогательных регрессий) зависит только от ваших требований к уровню допуска; в большинстве практических предложений допустимый допуск должен быть ниже 0,2 или 0,1, что означает, что соответствующие средние значения вспомогательных регрессий должны быть выше 0,9 или 0,8 до обнаружить проблему. Таким образом, VIF должен быть больше 10-ти и 5-ти значений. В небольших выборках (менее 50 баллов) 5 предпочтительнее, в более крупных вы можете перейти к большим значениям. $R^2$
Индекс условия является альтернативой VIF, в вашем случае ни VIF, ни CI не показывают, что проблема осталась, поэтому вы можете быть статистически удовлетворены этим результатом, но ...

вероятно, не теоретически, поскольку может случиться (и обычно так), что вам нужны все переменные, чтобы присутствовать в модели. Исключение релевантных переменных (проблема с пропущенными переменными) в любом случае приведет к необъективным и непоследовательным оценкам параметров. С другой стороны, вы можете быть вынуждены включить все переменные фокуса просто потому, что ваш анализ основан на нем. В подходе интеллектуального анализа данных вы более техничны в поиске наилучшего соответствия.

Так что имейте в виду альтернативы (которые я бы использовал сам):

получить больше точек данных (напомним, что требования VIF меньше для больших наборов данных, а пояснительные переменные, если они медленно меняются, могут изменяться для некоторых критических моментов времени или сечения)
поиск кратковременных факторов через главные компоненты (последние являются ортогональными комбинациями, поэтому они не являются мультиколлинеарными по конструкции, более того, включают все объясняющие переменные)
Ридж-регрессия (вносит небольшое смещение в оценки параметров, но делает их очень стабильными)

Некоторые другие хитрости есть в статье вики, указанной выше.

— Дмитрий Челов
источник

3

Я полагаю, что Belsely сказал, что CI больше 10 указывает на возможную умеренную проблему, в то время как более 30 - более серьезная.

Кроме того, однако, вы должны посмотреть на дисперсию, разделяемую наборами переменных в индексах высокого состояния. Существует дискуссия (или была, когда я в последний раз читал эту литературу) о том, была ли коллинеарность, включающая одну переменную и перехват, проблематичной или нет, и было ли центрирование ошибочной переменной избавлено от проблемы или просто переместило ее в другое место.

— Питер Флом - Восстановить Монику
источник