Вопросы с тегом «multicollinearity»

Ситуация, когда существует сильная линейная связь между предикторными переменными, так что их корреляционная матрица становится (почти) единственной. Это «плохое состояние» затрудняет определение уникальной роли, которую играет каждый из предикторов: возникают проблемы с оценкой и увеличиваются стандартные ошибки. Двусторонние очень высококоррелированные предикторы являются одним примером мультиколлинеарности.

9
Есть ли интуитивное объяснение, почему мультиколлинеарность является проблемой линейной регрессии?
В вики обсуждаются проблемы, возникающие, когда мультиколлинеарность является проблемой линейной регрессии. Основная проблема заключается в том, что мультиколлинеарность приводит к нестабильным оценкам параметров, что очень затрудняет оценку влияния независимых переменных на зависимые переменные. Я понимаю технические причины проблем (возможно, не в состоянии инвертировать , плохо обусловленные т. Д.), Но я …

9
Почему можно получить значительную статистику F (p <.001), но не значимые t-тесты регрессора?
Почему при множественной линейной регрессии возможно иметь очень значительную F-статистику (p &lt;.001), но иметь очень высокие p-значения во всех t-тестах регрессора? В моей модели 10 регрессоров. Один имеет значение р 0,1, а остальные выше 0,9 Для решения этой проблемы см. Следующий вопрос .

1
Какая корреляция делает матрицу сингулярной и каковы значения сингулярности или почти сингулярности?
Я делаю некоторые вычисления на разных матрицах (в основном в логистической регрессии), и я обычно получаю ошибку «Матрица является единственной», где я должен вернуться и удалить коррелированные переменные. Мой вопрос здесь: что бы вы назвали «сильно» коррелированной матрицей? Существует ли пороговое значение корреляции для представления этого слова? Например, если переменная …

3
Каков эффект наличия коррелированных предикторов в модели множественной регрессии?
Я узнал в классе линейных моделей, что если два предиктора коррелированы и оба включены в модель, один из них будет незначительным. Например, предположим, что размер дома и количество спален взаимосвязаны. При прогнозировании стоимости дома с использованием этих двух предикторов один из них может быть отброшен, поскольку они предоставляют много одинаковой …

6
Почему мультиколлинеарность не проверяется в современной статистике / машинном обучении
В традиционной статистике при построении модели мы проверяем мультиколлинеарность, используя такие методы, как оценки коэффициента инфляции дисперсии (VIF), но в машинном обучении вместо этого мы используем регуляризацию для выбора признаков и, похоже, не проверяем, коррелированы ли функции вообще. Зачем мы это делаем?

2
Не будут ли сильно коррелированные переменные в случайном лесу искажать точность и выбор характеристик?
В моем понимании, сильно коррелированные переменные не будут вызывать проблемы мультиколлинеарности в модели случайного леса (пожалуйста, исправьте меня, если я ошибаюсь). Однако, с другой стороны, если у меня будет слишком много переменных, содержащих аналогичную информацию, будет ли модель слишком весить для этого набора, а не для других? Например, есть два …

3
Какая разница инфляции фактор я должен использовать:
Я пытаюсь интерпретировать дисперсии коэффициентов инфляции с использованием vifфункции в пакете R car. Функция печатает как обобщенный и . Согласно файлу справки , это последнее значениеVIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} Чтобы настроить размер доверительного эллипсоида, функция также печатает GVIF ^ [1 / (2 * df)], где df - степени свободы, связанные с термином. Я …

3
Как бороться с мультиколлинеарностью при выборе переменных?
У меня есть набор данных с 9 непрерывными независимыми переменными. Я пытаюсь выбрать среди этих переменных, чтобы подогнать модель к одной процентной (зависимой) переменной Score. К сожалению, я знаю, что между несколькими переменными будет серьезная коллинеарность. Я пытался использовать stepAIC()функцию в R для выбора переменных, но этот метод, как ни …

3
Как определить разницу между линейной и нелинейной регрессионными моделями?
Я читал следующую ссылку на нелинейную регрессию SAS Non Linear . Из первого раздела «Нелинейная регрессия и линейная регрессия» я понял, что приведенное ниже уравнение на самом деле является линейной регрессией, верно? Если так, то почему? Y= б1Икс3+ б2Икс2+ б3х + сy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c …

2
Диагностика коллинеарности проблематична только тогда, когда включен термин взаимодействия
Я провел регрессию по округам США и проверяю коллинеарность в моих «независимых» переменных. Belsley, Kuh и Welsch's Regression Diagnostics предлагают взглянуть на Пропорции индекса состояния и дисперсии дисперсии: library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance Decomposition Proportions (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct …

5
Как проверить и избежать мультиколлинеарности в смешанной линейной модели?
В настоящее время я использую линейные модели со смешанным эффектом. Я использую пакет "lme4" в R. Мои модели принимают форму: model &lt;- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) Перед запуском моих моделей я проверил возможную мультиколлинеарность между предикторами. Я сделал это путем: Создайте план данных из …

2
Является ли PCA нестабильным при мультиколлинеарности?
Я знаю, что в ситуации регрессии, если у вас есть набор сильно коррелированных переменных, это обычно «плохо» из-за нестабильности оценочных коэффициентов (дисперсия движется к бесконечности, так как детерминант движется к нулю). Мой вопрос заключается в том, сохраняется ли эта «плохость» в ситуации PCA. Не становятся ли коэффициенты / нагрузки / …


1
Есть ли причина предпочитать конкретную меру мультиколлинеарности?
При работе со многими входными переменными нас часто беспокоит мультиколлинеарность . Существует ряд мер мультиколлинеарности, которые используются для обнаружения, анализа и / или передачи мультиколлинеарности. Некоторые общие рекомендации: Кратный для конкретной переменной р2JрJ2R^2_j Допуск, , для конкретной переменной 1 - R2J1-рJ21-R^2_j Коэффициент инфляции дисперсии, , для конкретной переменной VIF = …

1
Как бороться с высокой корреляцией среди предикторов при множественной регрессии?
Я нашел ссылку в статье, которая выглядит так: Согласно Tabachnick &amp; Fidell (1996), независимые переменные с двумерной корреляцией более 0,70 не должны включаться в множественный регрессионный анализ. Проблема: я использовал в дизайне множественной регрессии 3 переменные, коррелированные&gt; 0,80, VIF около 0,2-2,3, Допуск ~ 4-5. Я не могу исключить ни одну …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.