Оценка логистической регрессии и интерпретации Хосмера-Лемешоу Goodness of Fit

24

Как мы все знаем, есть 2 метода для оценки модели логистической регрессии, и они тестируют очень разные вещи

Прогнозирующая сила:

Получите статистику, которая измеряет, насколько хорошо вы можете предсказать зависимую переменную на основе независимых переменных. Хорошо известными псевдо R ^ 2 являются Макфадден (1974) и Кокс и Снелл (1989).

Статистика соответствия

Тест показывает, можно ли добиться большего успеха, усложняя модель, что фактически проверяет наличие нелинейностей или взаимодействий.

Я реализовал оба теста в своей модели, которые уже добавили квадратичность и взаимодействие
:

>summary(spec_q2)

Call:
glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + 
 I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, 
 family = binomial())

 Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.955431   8.838584   0.108   0.9139    
Top          0.311891   0.189793   1.643   0.1003    
Right       -1.015460   0.502736  -2.020   0.0434 *  
Left        -0.962143   0.431534  -2.230   0.0258 *  
Bottom       0.198631   0.157242   1.263   0.2065    
I(Top^2)    -0.003213   0.002114  -1.520   0.1285    
I(Left^2)   -0.054258   0.008768  -6.188 6.09e-10 ***
I(Bottom^2)  0.003725   0.001782   2.091   0.0366 *  
Top:Right    0.012290   0.007540   1.630   0.1031    
Top:Bottom   0.004536   0.002880   1.575   0.1153    
Right:Left  -0.044283   0.015983  -2.771   0.0056 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 3350.3  on 2799  degrees of freedom
Residual deviance: 1984.6  on 2789  degrees of freedom
AIC: 2006.6

и прогнозируемая мощность указана ниже, MaFadden равен 0,4004, и значение от 0,2 до 0,4 должно быть взято для обеспечения очень хорошего соответствия модели (Louviere et al (2000), Domenich and McFadden (1975)):

 > PseudoR2(spec_q2)
    McFadden     Adj.McFadden        Cox.Snell       Nagelkerke McKelvey.Zavoina           Effron            Count        Adj.Count 
   0.4076315        0.4004680        0.3859918        0.5531859        0.6144487        0.4616466        0.8489286        0.4712500 
         AIC    Corrected.AIC 
2006.6179010     2006.7125925

и статистика пригодности:

 > hoslem.test(result,phat,g=8)

     Hosmer and Lemeshow goodness of fit (GOF) test

  data:  result, phat
  X-squared = 2800, df = 6, p-value < 2.2e-16

Насколько я понимаю, GOF фактически проверяет следующую нулевую и альтернативную гипотезу:

  H0: The models does not need interaction and non-linearity
  H1: The models needs interaction and non-linearity

Поскольку в моих моделях добавлено взаимодействие, нелинейность уже и значение p показывает, что H0 следует отклонить, поэтому я пришел к выводу, что моя модель нуждается во взаимодействии, в действительности нелинейность. Надеюсь, что моя интерпретация верна и спасибо за любые советы заранее, спасибо.

— Samoth
источник

1

см. также stats.stackexchange.com/questions/169000/… и stats.stackexchange.com/questions/167483/…

2

Лучше посмотреть на базовую таблицу, чем на p-значение для теста HL. А также на графиках остатков от вашей модели. Это покажет, где проблема.

— вероятностная

26

Есть несколько вопросов для решения.

$R^2$ сами по себе никогда не измеряют добротность соответствия; они измеряют в основном прогностическую дискриминацию. Достаточность соответствия достигается только при сравнении с из более богатой модели $R^2$ $R^2$
Тест Хосмера-Лемешоу предназначен для общей погрешности калибровки, а не для какого-либо конкретного отсутствия соответствия, такого как квадратичные эффекты. Он не учитывает должным образом переоснащение, является произвольным для выбора лотков и метода вычисления квантилей и часто имеет слишком низкую мощность.
По этим причинам тест Хосмера-Лемешоу больше не рекомендуется. Хосмер и его коллеги провели лучший тест соответствия, реализованный в функции rmsпакета R.residuals.lrm
В вашем случае добротность подгонки может быть оценена путем совместного тестирования (в «тесте на куски») вклада всех квадратов и членов взаимодействия.
Но я рекомендую указать модель, чтобы она с большей вероятностью подходила спереди (особенно в отношении смягчения допущений о линейности с использованием сплайнов регрессии), и использовать начальную загрузку для оценки переоснащения и для получения плавной калибровочной кривой с высоким разрешением с поправкой на перегрузку для проверки абсолютной точность. Это делается с использованием rmsпакета R.

Что касается последнего пункта, я предпочитаю философию, согласно которой модели должны быть гибкими (в любом случае ограниченными размером выборки), и что мы концентрируемся больше на «подгонке», чем «неадекватности».

— Фрэнк Харрелл
источник

2

R^{2}

$R^2$

1 - R^{2}

$1 - R^{2}$

4

Из Википедии :

Тест оценивает, соответствуют ли наблюдаемые частоты событий ожидаемым частотам событий в подгруппах населения модели. Тест Хосмера – Лемешова специально определяет подгруппы как децили с установленными значениями риска. Модели, для которых ожидаемые и наблюдаемые частоты событий в подгруппах похожи, называются хорошо откалиброванными.

Его значение: после построения модели, оценивающей вашу модель y, вы хотите перепроверить, распределяется ли она по 10 децилям, аналогично фактической частоте событий.

Так что гипотезы будут

$H_0$
$H_1$

Следовательно, если p- значение меньше 0,05, они распределяются не очень хорошо, и вам необходимо уточнить вашу модель.

Я надеюсь, что это отвечает на некоторые ваши вопросы.

— Райниш Кумар
источник

3

Это довольно спорный вопрос следующие @ ответ FrankHarrell, но поклонник теста H-L будет вывести из этого результата , что , несмотря на ваше включение квадратичных членов и некоторые ^† взаимодействий второго порядка, модель все еще показала значительный недостаток приступа, и что , возможно , подойдет еще более сложная модель. Вы проверяете соответствие именно той модели, которую вы указали, а не более простой модели 1-го порядка.

† Это не полная модель 2-го порядка - есть три взаимодействия.

— Scortchi - Восстановить Монику
источник