Есть ли причина предпочитать конкретную меру мультиколлинеарности?

При работе со многими входными переменными нас часто беспокоит мультиколлинеарность . Существует ряд мер мультиколлинеарности, которые используются для обнаружения, анализа и / или передачи мультиколлинеарности. Некоторые общие рекомендации:

Кратный для конкретной переменной $R^2_j$
Допуск, , для конкретной переменной $1-R^2_j$
Коэффициент инфляции дисперсии, , для конкретной переменной $\text{VIF}=\frac{1}{\text{tolerance}}$
Номер условия проектирования матрицы в целом:

$\sqrt{\frac{макс (собственный (Х'Й))}{мин (собственный (Х'Й))}}$ $\sqrt{\frac{\text{max(eigenvalue(X'X))}}{\text{min(eigenvalue(X'X))}}}$

(Есть несколько других вариантов, обсуждаемых в статье в Википедии, и здесь на SO в контексте R.)

Тот факт, что первые три являются идеальной функцией друг друга, говорит о том, что единственным возможным чистым преимуществом между ними было бы психологическое. С другой стороны, первые три позволяют вам изучать переменные по отдельности, что может быть преимуществом, но я слышал, что метод числа условий считается лучшим.

Это правда? Лучше всего для чего?
Является ли число условий идеальной функцией ? (Я думаю, что это будет.) $R^2_j$
Люди находят, что один из них легче всего объяснить? (Я никогда не пытался объяснить эти числа вне класса, я просто даю качественное описание мультиколлинеарности.)

multicollinearity

— Gung - Восстановить Монику
источник

Я опубликовал соответствующий вопрос с ответами на этот вопрос, дополняющий то, что уже есть здесь: stats.stackexchange.com/questions/173665/…

— kyrenia

Еще в конце 1990-х годов я защитил диссертацию по коллинеарности.

Я пришел к выводу, что показатели состояния были лучшими.

Основная причина заключалась в том, что вместо того, чтобы смотреть на отдельные переменные, он позволяет вам просматривать наборы переменных. Поскольку коллинеарность является функцией наборов переменных, это хорошо.

Кроме того, результаты моего исследования в Монте-Карло показали лучшую чувствительность к проблематичной коллинеарности, но я давно забыл детали.

$R^2$

Подробнее об этом читайте в книгах Дэвида Белсли. Или, если вы действительно хотите, вы можете получить мою диссертацию Диагностика мультиколлинеарности для множественной регрессии: исследование Монте-Карло

— Питер Флом - Восстановить Монику
источник

Итак, идея заключается в том, что, глядя на VIF, вы можете ошибочно заключить, что мультиколлинеарность не является проблемой, но если бы вы посмотрели на число условий, вы бы с большей вероятностью сделали правильный вывод? Возможно, что-то вроде теста с большей статистической мощностью?

— gung - Восстановить Монику

+1. К счастью, для объяснения номера условия у нас уже есть выдающийся поток на этом сайте: это максимальное искажение, которое можно найти в описании второго порядка переменных проекта в виде облака точек. Чем больше искажение, тем больше точек, как правило, лежат в подпространстве. Это геометрическое понимание также показывает, почему кондиционирование центрированной проектной матрицы лучше, чем кондиционирование самой исходной проектной матрицы.

— whuber

Что ж, трудно точно определить, что такое «правильный» вывод; но это должно быть как-то связано с небольшими изменениями в данных, вызывающими большие изменения в выходных данных. Насколько я помню, показатели состояния были более непосредственно связаны с этим. Но главное - получить пропорции дисперсии, которые позволят вам увидеть наборы переменных и степень их коллинеарности. (Конечно, все это было 14 лет назад .... но я не думаю, что все изменилось. Меры те же. Но моя память может быть не идеальной).

— Питер Флом - Восстановить Монику

Ганг, одним из ключевых моментов здесь является то, что число условий не зависит от координат: оно остается неизменным при (ортогональных) линейных рекомбинациях данных. Таким образом, он не может ничего выразить об отдельных переменных, но должен захватывать свойство всей коллекции. Таким образом, его использование частично защищает вас от введения в заблуждение тем, как ваши переменные выражаются.

— whuber

Я был слишком занят, чтобы закончить твою диссертацию, но пока она мне очень помогала. Еще раз спасибо.

— gung - Восстановить Монику