Сравнение вложенных бинарных моделей логистической регрессии, когда большое


10

Чтобы лучше задать мой вопрос, я предоставил некоторые из выводов как из 16 переменных моделей ( fit), так и из 17 переменных моделей ( fit2) ниже (все предикторные переменные в этих моделях являются непрерывными, где единственное различие между этими моделями состоит в том, fitчто содержит переменную 17 (var17)):

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

Я использовал rmsпакет Фрэнка Харрелла для создания этих lrmмоделей. Как вы можете видеть, эти модели, по-видимому, не сильно отличаются друг от друга в зависимости от индексов дискриминации и ранга дискриминации. Индексы ; Однако, используя lrtest(fit,fit2), мне были предоставлены следующие результаты:

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

Таким образом, мы отвергли бы нулевую гипотезу этого теста отношения правдоподобия; однако я предполагаю, что это, вероятно, связано с большим размером выборки ( n = 102849), поскольку эти модели работают аналогичным образом. Кроме того, мне интересно найти лучший способ формального сравнения вложенных бинарных моделей логистической регрессии, когда n велико.

Я очень ценю любые отзывы, R-сценарии или документацию, которые могут направить меня в правильном направлении с точки зрения сравнения этих типов вложенных моделей! Спасибо!


Какова цель удаления переменной 17?
Майкл М

Это игрушечный пример; тем не менее, меня обычно просят построить модели с 8-12 переменными, и удаление переменных, которые не влияют на модель, представляет для меня основной интерес. Переменная 17, по-видимому, очень мало значит для модели в целом (с точки зрения предсказуемости), однако тест отношения правдоподобия говорит нам, что между двумя моделями существует существенная разница (вероятно, из-за большого n, а не фактической разницы в этих две модели). Таким образом, я надеюсь найти способ сравнить эти две модели (найти метод, который не указывает на разницу между этими двумя моделями)
Мэтт Райхенбах

(1) не уверен, что я вполне понимаю, что вы ищете. Но в медицине проблема использования дискриминации, такой как c-статистика, хорошо известна, c-statics может быть неизменной даже при добавлении значимой переменной, что привело к разработке индексов реклассификации ( circ.ahajournals.org/content/121/15/ 1768.full ) (2) похожи ли AIC / BIC? ряд переменных критериев получения информации может быть более полезным, чем критерии дискриминации.
Чарльз

1
Я думаю, что есть опечатка в вашем первом абзаце. Утверждается, что fit2это модель с 17 переменными, но это также модель, которая опускается V17. Вы можете редактировать это.
Томка

1
@ Tomka, я изменил fit2на fitв приведенном выше примере в соответствии с вашей коррекцией. Спасибо!
Мэтт Райхенбах

Ответы:


6

(1) Существует обширная литература о том, почему следует предпочитать полные модели ограниченным / экономным моделям. В моем понимании есть несколько причин, чтобы предпочесть экономную модель. Тем не менее, большие модели могут быть неосуществимы для многих клинических применений.

(2) Насколько мне известно, индексы дискриминации / дискриминации не используются (? Не должны) в качестве параметра выбора модели / переменной. Они не предназначены для этого использования, и, как следствие, может быть мало литературы о том, почему их не следует использовать для построения моделей.

(3) Экономные модели могут иметь ограничения, которые не всегда очевидны. Они могут быть менее хорошо откалиброваны, чем более крупные модели, внешняя / внутренняя валидность может быть уменьшена.

(4) Статистика c может быть неоптимальной при оценке моделей, которые предсказывают будущий риск или делят людей на категории риска. В этом случае калибровка так же важна для точной оценки риска. Например, биомаркер с коэффициентом шансов 3 может незначительно влиять на cstatistic, но повышенный уровень может сместить предполагаемый 10-летний сердечно-сосудистый риск для отдельного пациента с 8% до 24%.

Повар NR; Использование и неправильное использование кривой ROC в медицинской литературе. Циркуляционный. 115 2007: 928-935.

(5) AUC / c-статистика / дискриминация, как известно, нечувствительны к значимым предикторам. Это обсуждается в приведенной выше ссылке Кука и является движущей силой разработки индекса чистой реклассификации. Также обсуждается в Cook выше.

(6) Большие наборы данных могут по-прежнему приводить к более крупным моделям, чем требуется, если используются стандартные методы выбора переменных. В пошаговых процедурах выбора часто используется отсечение р-значения 0,05. Но в этом значении нет ничего внутреннего, что означает, что вы должны выбрать это значение. При меньших наборах данных более подходящее значение p (0.2) может быть более подходящим, а при больших наборах данных может быть более подходящим меньшее значение p (по этой причине 0,01 использовалось для набора данных GUSTO I).

(7) В то время как AIC часто используется для выбора модели и лучше поддерживается литературой, BIC может быть допустимой альтернативой в больших наборах данных. Для выбора модели BIC хи-квадрат должен превышать log (n), поэтому это приведет к меньшим моделям в больших наборах данных. (Мэллов может иметь сходные характеристики)

(8) Но если вы просто хотите получить максимум 10 или 12 переменных, более простое решение - это что-то вроде пакета bestglmили leapsпакета, в котором вы просто задали максимальное количество переменных, которое хотите рассмотреть.

(9) если вы просто хотите провести тест, в котором две модели будут выглядеть одинаково, и не будете слишком беспокоиться о деталях, вы, вероятно, можете сравнить AUC двух моделей. Некоторые пакеты даже дают p-значение для сравнения. Не кажется желательным.

Ambler G (2002) Упрощение прогностической модели: имитационное исследование, основанное на клинических данных
Cook NR; Использование и неправильное использование кривой ROC в медицинской литературе. Циркуляционный. 115 2007: 928-935.
Gail MH, Pfeiffer RM; О критериях оценки моделей абсолютного риска. Биостат. 6 2005: 227-239.

(10) После того, как модель построена, индексы c-статистики / децимации могут быть не лучшим подходом к сравнению моделей и имеют хорошо документированные ограничения. Сравнения должны также, как минимум, включать калибровку, индекс реклассификации.

Steyerber (2010) Оценка эффективности моделей прогнозирования: основа для некоторых традиционных и новых мер

(11) Это может быть хорошей идеей, чтобы выйти за рамки выше и использовать аналитические меры решения.

Виккерс А.Ю., Елкин Е.Б. Анализ кривой принятия решения: новый метод оценки моделей прогнозирования. Med Decis Making. 2006; 26: 565-74.
Бейкер С.Г., Повар Н.Р., Виккерс А., Крамер Б.С. Использование кривых относительной полезности для оценки прогнозирования риска. JR Stat Soc A. 2009; 172: 729-48.
Ван Калстер Б., Викерс А.Дж., Пенчина М.Дж., Бейкер С.Г., Тиммерман Д., Штейерберг Е.В. Оценка маркеров и моделей прогнозирования риска: обзор взаимосвязей между NRI и аналитическими мерами принятия решений. Med Decis Making. 2013; 33: 490-501

--- Обновление --- Я нахожу статью Vickers наиболее интересной. Но это все еще не было широко принято несмотря на многие передовые статьи. Так что может не иметь большого практического применения. Статьи Кука и Штейерберга гораздо более практичны.

Никто не любит пошаговый отбор. Я, конечно, не собираюсь защищать это. Я мог бы подчеркнуть, что большинство критических замечаний в отношении поэтапного подхода предполагает EPV <50 и выбор между полной или предварительно определенной моделью и сокращенной моделью. Если EPV> 50 и существует приверженность модели сокращения, анализ затрат и выгод может отличаться.

Слабая мысль, стоящая за сравнением c-статистики, заключается в том, что они могут не отличаться, и я, кажется, помню, что этот тест был значительно недостаточным. Но сейчас я не могу найти ссылку, так что, может быть, это далеко не так.


(1) Я знаю, что полные модели предпочтительнее, но у меня есть выбор из более чем 1 тыс. Вариаций, и я обязан создавать эти меньшие модели из-за отраслевых требований. (2) Это имеет смысл! (3) Согласен! (4) Верно (5) Интересно
Мэтт Райхенбах

(6) Согласовано; тем не менее, пошаговые процедуры очень сомнительны, и чем ниже отсечение значения p , тем более предвзятыми становятся эти типы моделей, независимо от размера выборки. (7) «Для выбора модели BIC хи-квадрат должен превышать log (n)», это кажется очень полезным. Спасибо! (8) bestglmи leapsпакеты очень дороги в вычислительном отношении и занимают дни, чтобы работать с наборами данных, такими как те, с которыми я работаю, но спасибо за потенциальные идеи.
Мэтт Райхенбах

(9) Эти p-значения были бы значительными, даже если бы модели были практически одинаковыми из-за большого размера выборки. (10) Мне нужно больше изучить индекс калибровки и реклассификации, спасибо! (11) Мне очень интересно читать эти статьи. Вы бы порекомендовали мне начать с Виккерса? Спасибо!
Мэтт Райхенбах

5

Одним из вариантов является использование мер псевдо R-квадрата для обеих моделей. Сильное различие в псевдо R-квадрате предполагает, что подгонка модели сильно уменьшается при пропуске V17.

Существуют различные виды псевдо R-квадратов. Обзор можно найти здесь, например:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Популярной мерой является Нагелкерке R-квадрат. Она варьируется от 0 до 1 и с осторожностью может быть интерпретирована как R-квадрат из простой модели линейной регрессии. Он основан на преобразованном соотношении оценочных правдоподобий полной модели к модели только для перехвата.

Вы можете оценить его для fitи fit2, соответственно, и сравнить относительный размер, чтобы получить представление о вашей проблеме. Значительно более высокое значение R-квадрата для Нагелкерке fitпозволяет предположить, что fit2из-за отсутствия V17 теряется много предсказательной силы.

В lrmна statsзначении обеспечивает R-квадрат Nagelkerke в. Таким образом, предоставление fit$statsдолжно предоставить вам оценку. Смотрите также ?lrm.


Я знаком с R-квадратом Нагелькерке; однако, мой вопрос заключается в том, для чего «существенно выше R-квадрат Nagelkerke fit»? В приведенном выше примере разница составляет 0,001, поскольку R-квадрат Нагелкерке равен 0,173 и 0,174 для fitи fit2, соответственно. Есть ли у вас какие-либо упоминания о том, что такое «существенно более высокая площадь Нагелькерке»? Спасибо!
Мэтт Райхенбах

@Matt: я думаю, что нет никаких общих руководящих принципов для интерпретации Rage Nagelkerke или других мер псевдо R². Тем не менее, обратите внимание, что это преобразованная мера «уменьшения вероятности» путем включения ковариат в модель «только перехват», что делает ее похожей на «объясненную дисперсию», указанную стандартом R 2 в линейной регрессии. В этом смысле я бы интерпретировал разницу .173 / .174 как очень маленькую. Более сильная разница была бы чем-то. соединяя децили Тем не менее, я предлагаю оценить другие меры псевдо R², например, McFadden или Cox / Snell, чтобы проверить надежность этого вывода.
Томка

Я согласен, что разница очень мала, но мне хотелось бы найти ссылку, в которой говорится, что такое «маленькая» разница ... Я ценю ваши мысли. Еще раз спасибо!
Мэтт Райхенбах

1
нет проблем! извините, что не проголосовал за вас раньше! Я опубликую еще раз, если найду ответ о том, что такое «маленькая» разница с точки зрения псевдо R-квадрата! Спасибо!
Мэтт Райхенбах

-1

Я только что прочитал об этом. Правильный способ сделать это - использовать вывод finalmodel R glm и найти «Остаточное отклонение:» и получить дельту между двумя моделями и использовать это значение в тесте хи-квадрат, используя df, равное числу пропущенных терминов-предикторов. И это ваше значение р.

Прикладное регрессионное моделирование Яян Пардо 2-е издание 2012 г., стр. 270

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.