Вопросы с тегом «multicollinearity»

Ситуация, когда существует сильная линейная связь между предикторными переменными, так что их корреляционная матрица становится (почти) единственной. Это «плохое состояние» затрудняет определение уникальной роли, которую играет каждый из предикторов: возникают проблемы с оценкой и увеличиваются стандартные ошибки. Двусторонние очень высококоррелированные предикторы являются одним примером мультиколлинеарности.

3
Как систематически удалять коллинеарные переменные в Python? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . До сих пор я удалял коллинеарные переменные как часть процесса подготовки данных, просматривая корреляционные таблицы и удаляя переменные, которые …

2
Качественное кодирование переменных в регрессии приводит к «особенностям»
У меня есть независимая переменная под названием «качество»; эта переменная имеет 3 способа реагирования (плохое качество; среднее качество; высокое качество). Я хочу ввести эту независимую переменную в мою множественную линейную регрессию. Когда у меня есть двоичная независимая переменная (фиктивная переменная, я могу кодировать 0/ 1), ее легко ввести в модель …

1
Логистическая регрессия - проблемы мультиколлинеарности / ловушки
В Логистической регрессии, нужно ли заботиться о мультиколлинеарности так же, как если бы вы были в прямой регрессии МНК? Например, в случае логистической регрессии, когда существует мультиколлинеарность, нужно ли вам быть осторожным (как в случае регрессии МНК) с выводом из бета-коэффициентов? Для регрессии МНК одним «исправлением» высокой мультиколлинеарности является регрессия …

3
Когда мы можем говорить о коллинеарности
В линейных моделях нам нужно проверить, существует ли связь между объясняющими переменными. Если они слишком сильно коррелируют, то возникает коллинеарность (то есть переменные частично объясняют друг друга). В настоящее время я просто смотрю на попарную корреляцию между каждой из объясняющих переменных. Вопрос 1: Что классифицирует как слишком большую корреляцию? Например, …

1
Почему эта регрессия НЕ терпит неудачу из-за совершенной мультиколлинеарности, хотя одна переменная является линейной комбинацией других?
Сегодня я играл с небольшим набором данных и выполнил простую регрессию OLS, которую я ожидал потерпеть неудачу из-за совершенной мультиколлинеарности. Однако это не так. Это подразумевает, что мое понимание мультиколлинеарности неверно. Мой вопрос: где я не прав? Я думаю, что могу показать, что одна из моих переменных является линейной комбинацией …

1
Какова интуиция за сменными образцами при нулевой гипотезе?
Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования непараметрическое тестирование, как, Mann-Whitney-U-testможет привести к потере большего количества информации. Тем не менее, одно и только одно предположение …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
VIF, индекс состояния и собственные значения
В настоящее время я оцениваю мультиколлинеарность в моих наборах данных. Какие пороговые значения VIF и индекса состояния ниже / выше указывают на проблему? VIF: я слышал, что VIF является проблемой.≥ 10≥10\geq 10 После удаления двух проблемных переменных VIF равен для каждой переменной. Нужно ли обрабатывать переменные или этот VIF-файл выглядит …

1
Почему Ридж Регресс хорошо работает при наличии мультиколлинеарности?
Я узнаю о регрессии гребня и знаю, что регрессия гребня работает лучше при наличии мультиколлинеарности. Мне интересно, почему это правда? Был бы удовлетворен либо интуитивный, либо математический ответ (оба типа ответов были бы еще более удовлетворительными). Кроме того , я знаю, что β всегда можно получить, но насколько хорошо хребет …

4
Стоит ли беспокоиться о мультиколлинеарности при использовании нелинейных моделей?
Скажем, у нас есть проблема бинарной классификации с в основном категориальными особенностями. Мы используем некоторую нелинейную модель (например, XGBoost или Случайные Леса), чтобы изучить ее. Стоит ли еще беспокоиться о мультиколлинеарности? Почему? Если ответ на вышеприведенный ответ верен, как с этим бороться, учитывая, что используются нелинейные модели этих типов?

2
Линейная регрессия, когда вы знаете только
Пусть Xβ=YXβ=YX\beta =Y . Мы не знаем , YYY точно, только его корреляции с каждым предиктором, XtYXtYX^\mathrm{t}Y . Обычное решение наименьших квадратов (OLS) - это и здесь нет проблем.β=(XtX)−1XtYβ=(XtX)−1XtY\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y Но предположим, что близок к единственному (мультиколлинеарность), и вам нужно оценить оптимальный параметр гребня. Все методы , кажется, нужны …

2
Что такое чанк-тесты?
В ответ на вопрос о выборе модели в наличии мультиколлинеарности , Франк Харрелл предложил : Поместите все переменные в модель, но не проверяйте влияние одной переменной, скорректированной с учетом влияния конкурирующих переменных ... Кусочные тесты конкурирующих переменных являются мощными, потому что коллинеарные переменные объединяют силы в общем тесте ассоциации множественной …

6
Мультиколлинеарность, когда отдельные регрессии значительны, но VIF низкие
У меня есть 6 переменных ( ), которые я использую для предсказания . При выполнении анализа данных я сначала попробовал множественную линейную регрессию. Из этого, только две переменные были значительными. Однако, когда я запустил линейную регрессию, сравнивая каждую переменную в отдельности с , все, кроме одного, были значимыми ( где-то …

3
Нужно ли отбрасывать переменные, которые коррелированы / коллинеарны перед запуском kmeans?
Я использую kmeans для определения групп клиентов. У меня есть около 100 переменных для определения кластеров. Каждая из этих переменных представляет собой процент расходов клиента на категорию. Итак, если у меня есть 100 категорий, у меня есть эти 100 переменных, так что сумма этих переменных составляет 100% для каждого клиента. …

3
Как вы можете обрабатывать нестабильные оценки в линейной регрессии с высокой мультиколлинеарностью, не выбрасывая переменные?
Бета-стабильность в линейной регрессии с высокой мультиколлинеарностью? Скажем, в линейной регрессии переменные и имеют высокую мультиколлинеарность (корреляция составляет около 0,9).х 2Икс1x1x_1Икс2x2x_2 Мы обеспокоены стабильностью коэффициента поэтому мы должны рассмотреть мультиколлинеарность.ββ\beta Решение учебника было бы просто выбросить одну из переменных. Но мы не хотим терять полезную информацию, просто отбрасывая переменные. Какие-либо …

2
Работа с мультиколлинеарностью
Я узнал, что, используя vif()метод carупаковки, мы можем вычислить степень мультиколлинеарности входных данных в модели. Из википедии , если vifзначение больше, чем 5тогда, мы можем считать, что вход страдает от проблемы мультиколлинеарности. Например, я разработал модель линейной регрессии с использованием lm()метода и vif()дает следующее. Как мы можем видеть, входы ub, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.