Каковы преимущества различных подходов к обнаружению коллинеарности?


11

Я хочу определить, является ли коллинеарность проблемой в моей регрессии МНК. Я понимаю, что факторы инфляции дисперсии и индекс состояния являются двумя часто используемыми показателями, но мне трудно найти что-то определенное с точки зрения достоинств каждого подхода или какими должны быть оценки.

Известный источник, который указывает, какой подход и / или какие оценки являются подходящими, был бы очень полезен.

Аналогичный вопрос был задан на вопросе: «Есть ли причина предпочитать конкретную меру мультиколлинеарности?» но я в идеале после ссылки, которую я могу привести.


4
Не забывайте , что коллинеарности очень вопрос степени , так что даже если вы нашли текст , который дает хороший, citable номер это не то , что вы должны относиться как жесткое светотеневое значение для «без проблем» против « у нас есть проблемы ».
Серебряная

4
@Silverfish дает хороший совет. Белсли, Кух и Уэлш также подчеркивают, что коллинеарность, даже если она присутствует, не обязательно вредна: вы должны определить, действительно ли она вызывает проблему для вашего анализа.
whuber

Ответы:


11

Belsley, Кух, и Вельш является текст для ответа на этот вопрос. Они включают в себя подробное обсуждение старой диагностики в разделе «Историческая перспектива». По поводу ВИФ пишут

... Если мы предположим, что данные были отцентрированы и масштабированы, чтобы иметь единичную длину, корреляционная матрица R будет просто X XИксрИкс'Икс . ...

Мы рассматриваем . Диагональные элементы R - 1 , r i i , часто называют дисперсионными коэффициентами инфляции, VIF i , и их диагностическое значение следует из соотношения VIF i = 1.р-1знак равно(Икс'Икс)-1р-1ряяVIFя гдеR 2 i - коэффициент множественной корреляцииXi,регрессированный по оставшимся поясняющим переменным. Очевидно, что высокий VIF указывает наR 2 i, близкий к единице, и, следовательно, указывает на коллинеарность. Следовательно, эта мера имеет некоторое значение в качестве общего показателя коллинеарности. Его слабости, как и уR

VIFязнак равно11-ря2
ря2Иксяря2р , заключаются в невозможности различить несколько сосуществующих близких зависимостей и в отсутствии значимой границы, позволяющей различать значения VIF, которые можно считать высокими, и те, которые можно считать низкими.

рр-1ИксИксβ^яна компоненты, связанные с единичными значениями. Сила этого разложения заключается в его способности (во многих случаях) раскрывать природу коллинеарности, а не просто указывать ее наличие.

Икся1,...,ИксяК вызывает нестабильность в вычислениях: посмотрите, какую из этих переменных вы можете обойтись без, или подумайте о выполнении принципала Анализ компонентов для уменьшения их количества. "

В конечном итоге BKW рекомендует диагностировать коллинеарность с помощью

... следующее двойное условие:

  1. Единственное значение, которое оценивается как имеющее высокий индекс условия, и которое связано с
  2. Высокие пропорции разложения дисперсии для двух или более оцененных дисперсий коэффициента регрессии.

30Икс0,5


10
  • р21/(1-р2)

    Тем не менее, VIFs, как правило, реализованы, не может сказать вам о коллинеарности с перехватом, так как перехват обычно молча включается в эти «вспомогательные» регрессии. Кроме того, если у регрессора высокий VIF, вы не сразу знаете, какие другие регрессоры ответственны за коллинеарность. Вам нужно будет взглянуть на стандартизированные коэффициенты в регрессиях помощников.

  • Индексы состояния и пропорции декомпозиции коллинеарности Belsley, Kuh & Welsch (Belsley, DA; Kuh, E. & Welsch, RE. Регрессионная диагностика: выявление влиятельных данных и источников коллинеарности. John Wiley & Sons, 1980) гораздо сложнее понять. Я работал с ними несколько лет назад, но я не буду пытаться объяснить их здесь, не получив переподготовки ;-)

    Эта диагностика действительно позволяют обнаруживать коллинеарности с перехватом. И вы можете исследовать пропорции разложения коллинеарности, чтобы определить, какие другие регрессоры ответственны за коллинеарность одного данного регрессора.


Спасибо - очень полезно - знаете ли вы случайно о том, что VIF превышает 10 эмпирических правил ... Я могу найти множество примечаний к электронным лекциям, но не могу найти ничего такого, что говорит об этом .. .
Гирне

@kyrenia «больше 10» - далеко не единственный порог, который я видел! Интересно, есть ли различия между полями или просто между авторами.
Серебряная

3
2100

@whuber Спасибо за это. Это очень интересное наблюдение, которое очень важно для вопроса, поставленного ФП: учитывая важность комментариев «второго ранга» в системе StackExchange, я думаю, вам следует рассмотреть возможность включения этого в ваш отличный ответ.
Серебряная

6

Что касается широко доступных ссылок на цитирование, в книге «Далекий» на стр. 117 приведено практическое правило свыше 30 для выявления проблем на основе номеров условий, а в «Введении в статистическое обучение» , стр. 101, говорится, что значения VIF выше 5 или 10 указывают на проблему. ,

Вероятно, более важным, чем то, какой метод вы используете для определения мультиколлинеарности, будет то, как вы справитесь с этим.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.