классификация переменной превращает ее из незначительной в значительную


17

У меня есть числовая переменная, которая оказывается несущественной в многомерной модели логистической регрессии. Однако, когда я делю это на группы, это внезапно становится значительным. Это очень нелогично для меня: при категоризации переменной мы отказываемся от некоторой информации.

Как это может быть?

Ответы:


25

Одним из возможных объяснений могут быть нелинейности в отношениях между вашим исходом и предиктором.

[-1,1]Икс-1Икс1Икс0

> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
> 
> library(lmtest)
> 
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test

Model 1: yy ~ xx
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)
1   2 -676.72                     
2   1 -677.22 -1 0.9914     0.3194
> 
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test

Model 1: yy ~ xx_cut
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)  
1   3 -673.65                       
2   1 -677.22 -2 7.1362    0.02821 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Однако это не означает, что дискретизация предиктора является лучшим подходом. (Это почти никогда не бывает.) Намного лучше моделировать нелинейность, используя или аналогичные.


Есть ли примеры, когда дискретизация может быть разумной? Например, если у вас есть определенный порог (например, 18 лет), при котором происходит двоичное переключение в результатах. Числовой возраст в диапазоне 18+ может быть несущественным, но двоичный возраст> 18 может быть значимым?
ajrwhite

3
@ajrwhite: это зависит от области. Везде, где пороги кодифицированы в законе, дискретизация может иметь смысл. Например, если вы моделируете поведение при голосовании, имеет смысл проверить, действительно ли кто-то имеет право голосовать в возрасте 18 лет. Точно так же, в Германии, ваш налог на транспортное средство зависит от объема вашего двигателя и прыгает на 1700, 1800, 1900, ... куб.см Таким образом, почти все автомобили имеют смещения 1699, 1799, ... куб.см (вид самодискретизации). В естественных науках, таких как биология, медицина, психология и т. Д., Я изо всех сил пытаюсь найти пример, где дискретизация имеет смысл.
С. Коласса - Восстановить Монику

7

Один из возможных способов заключается в том, что отношения явно нелинейны. Невозможно сказать (учитывая нехватку деталей), действительно ли это объясняет, что происходит.

Вы можете проверить сами. Во-первых, вы можете создать добавленную переменную для самой переменной, а также отразить подгоночные эффекты в факторной версии модели. Если объяснение верно, оба должны видеть отчетливо нелинейный образец.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.