Какую меру псевдо-


55

У меня есть SPSSвыход для модели логистической регрессии. Выходные данные сообщают о двух мерах для подгонки модели, Cox & Snellи Nagelkerke.

Так что, как правило, какие из этих мер вы бы сообщили, как модель подходит?R²

Или какой из этих индексов соответствия обычно сообщается в журналах?


Немного предыстории: регрессия пытается предсказать наличие или отсутствие птицы (глухаря) из некоторых переменных среды (например, крутизна, растительный покров, ...). К сожалению, птица не появлялась очень часто (от 35 до 468 промахов), поэтому регрессия работает довольно плохо. Кокс и Снелл - это .09, Нагелкерке, .23.

Предмет - экология или экология.


3
На отличном справочном сайте по статистике UCLA есть отличная страница, объясняющая различные псевдо- R2 и как они связаны друг с другом.
gung - Восстановить Монику

Вот две ссылки, которые обсуждают точный непараметрический алгоритм, который максимизирует точность моделей логистической регрессии. Если вы используете этот метод с вашими данными, это повысит эффективность классификации вашей модели логистической регрессии применительно к образцу. Пример 1: onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/… Пример 2: epm.sagepub.com/content/54/1/73.abstract
user31256

Ответы:


74

Обычно я не буду сообщать о вообще. Хосмер и Лемешоу в своем учебнике « Прикладная логистическая регрессия» (2-е изд.) Объясняют, почему:R2

Как правило, [ меры] основаны на различных сравнениях прогнозируемых значений из подобранной модели с данными из [базовой модели], модели без данных или только для перехвата, и, как результат, не оценивают достоверность -поместиться. Мы полагаем, что истинная мера соответствия основана исключительно на сравнении наблюдаемых и предсказанных значений из подобранной модели.R2

[На стр. 164.]

Относительно различных версий ML , «псевдо » stat, они упоминают, что он «не рекомендуется для обычного использования, поскольку это не так легко объяснить интуитивно», но они чувствуют себя обязанными описать его, потому что различные пакеты программ сообщают об этом.R 2R2R2

Они завершают эту дискуссию в письменном виде,

... низкие значения в логистической регрессии являются нормой, и это создает проблему при сообщении их значений аудитории, привыкшей видеть значения линейной регрессии. ... Таким образом [рассуждая по ссылкам на приведенные в тексте примеры], мы не рекомендуем рутинную публикацию значений с результатами из соответствующих логистических моделей. Однако они могут быть полезны в состоянии построения модели как статистика для оценки конкурирующих моделей.R 2R2R2

[На стр. 167.]

Мой опыт работы с некоторыми крупными логистическими моделями (от 100 до 300 тысяч записей, от 100 до 300 объясняющих переменных) был именно таким, как описывают H & L. Я мог достичь относительно высокого с моими данными, примерно до 0,40. Они соответствовали частоте ошибок классификации между 3% и 15% (ложные отрицательные и ложные положительные результаты, сбалансированные, что подтверждено использованием 50% наборов данных удержания). Как намекнул H & L, мне пришлось потратить много времени на то, чтобы отвлечь клиента (самого опытного консультанта, который был знаком с ) в отношении и заставить его сосредоточиться на том, что имело значение в анализе (ошибка классификации ставки). Я могу горячо рекомендовать описать результаты вашего анализа без ссылки на , что, скорее всего, вводит в заблуждение, чем нет.R 2 R 2 R 2R2R2R2R2


1
(+1) Я изначально думал о расширении своего ответа (который пришел сразу после вашего), но определенно ваш ответ самодостаточен.
ЧЛ

спасибо за это, полезно для проекта, над которым я сейчас работаю - и это имеет смысл.
Брэндон Бертельсен

1
@whuber: я также склоняюсь к правильной классификации. тем не менее, я видел многочисленные ссылки в учебниках и на сайтах, предостерегающие аналитиков от недоверия к ним и подчеркивающих, что псевдо-rsq, несмотря на его ограничения, является более справедливой метрикой. Я часто читаю что-то, что кажется в какой-то степени подтвержденным в моем собственном анализе: что при добавлении заданного предиктора псевдо-rsq может возрасти (и другие метрики будут указывать на выгоду от сложения), в то время как правильная скорость классификации не будет достигнута, и что нельзя доверять последнему. Вы думали об этом?
rolando2

4
@ rolando2 Да, у меня есть. Это поднимает вопрос о том, сколько должно подняться псевдо- чтобы оправдать включение переменных. Я подозреваю, что ваша «правильная классификация» может относиться к частоте выборки , которая, конечно, является предвзятой. Если это правильно, то, что вы читаете, просто сравнивает две низшие статистические данные. Частота отсутствия выборки является гораздо более полезным показателем, чем псевдо- . R 2R2R2
whuber

1
+1. Кроме того, чтобы расширить тонкую часть вашего ответа, вы упомянули частоту ошибок классификации , которая является множественной и не следует путать с точностью . Существует много различных видов вычислений, которые могут быть получены из матрицы путаницы - точность , частота ложных срабатываний , точность и т. Д. - и какие из них нам нужны, зависит от приложения. Кроме того, вы делаете различие между выборкой , которая отличается от перекрестной проверки , но иногда путается с ней.
Уэйн

27

Оба показателя являются показателями силы ассоциации (то есть связан ли какой-либо предиктор с результатом, как для теста LR) и могут использоваться для количественного определения способности к прогнозированию или производительности модели. Единственный предиктор может оказать существенное влияние на результат, но он не обязательно будет настолько полезен для прогнозирования индивидуального отклика , отсюда и необходимость оценки эффективности модели в целом (относительно нулевой модели). Nagelkerke полезен, поскольку имеет максимальное значение 1,0, как сказал Срикант. Это просто нормализованная версия вычисленная из отношения правдоподобия,R 2 R 2 LR = 1 - exp ( - LR / n )R2R2RLR2=1exp(LR/n), который связан со статистикой Вальда для общей ассоциации, как первоначально предложено Коксом и Снеллом. Другими показателями прогнозирующей способности являются показатель Бриера, индекс С (вероятность совпадения или область ROC) или Сомерса D, последние два обеспечивают лучшую меру прогнозирующей дискриминации.

Единственные предположения, сделанные в логистической регрессии, - это линейность и аддитивность (+ независимость). Хотя было предложено много глобальных тестов на соответствие (например, тест Hosmer & Lemeshow , но см. Мой комментарий к @onestop), им, как правило, не хватает мощности. Для оценки соответствия модели лучше полагаться на визуальные критерии (стратифицированные оценки, непараметрическое сглаживание), которые помогают определить локальное или глобальное отклонение между прогнозируемыми и наблюдаемыми результатами (например, нелинейность или взаимодействие), и это в значительной степени подробно описано в RMS Харрелла. раздаточный материал . По смежной теме (калибровочные тесты), Штейерберг ( Модели клинического прогнозирования)χ2, 2009) указывает на тот же подход для оценки соответствия между наблюдаемыми результатами и прогнозируемыми вероятностями:

Калибровка связана с качеством соответствия, которое относится к способности модели соответствовать заданному набору данных. Как правило, не существует единственного критерия соответствия, который бы обладал хорошей силой против всех видов несоответствия модели прогнозирования. Примерами несоответствия являются пропущенные нелинейности, взаимодействия или неподходящая функция связи между линейным предиктором и результатом. Качество соответствия можно проверить с помощью статистики . (стр. 274)χ2

Он также предлагает полагаться на абсолютную разницу между сглаженными наблюдаемыми результатами и прогнозируемыми вероятностями либо визуально, либо с помощью так называемой статистики Харрелла.

Более подробную информацию можно найти в книге Харрелла « Стратегии регрессионного моделирования» (стр. 203-205, 230-244, 247-249). Для более недавнего обсуждения см. Также

Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ, and Kattan, MW (2010). Оценка эффективности моделей прогнозирования, основы для традиционных и новых мер . Эпидемиология , 21 (1) , 128-138.


Не могли бы вы уточнить различие между «хорошей формой соответствия» и силой ассоциации или способностью к прогнозированию?
Энди W

@ Энди Спасибо, что указал на это. После этого я понимаю, что мое первое предложение звучит не очень хорошо. Я обновлю свой ответ, пожалуйста, дайте мне знать, если это хорошо с вами.
хл

Спасибо за обновление, и оно проясняет различие.
Энди W

21

Я бы подумал, что основная проблема с любым видом меры для логистической регрессии заключается в том, что вы имеете дело с моделью, которая имеет известное значение шума. Это отличается от стандартной линейной регрессии, где уровень шума обычно рассматривается как неизвестный. Поскольку мы можем написать функцию плотности вероятности glm как:R2

f(yi|μi,ϕ)=exp(yib(μi)c(μi)ϕ+d(yi,ϕ))

Где - известные функции, а для функции обратной связи . Если мы определим обычные остатки отклонения GLM какb(.), c(.), d(.;.)μi=g1(xiTβ)g1(.)

di2=2ϕ(log[f(yi|μi=yi,ϕ)]log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)yib(μ^i)c(yi)+c(μ^i)]
Мы имеем (через отношение правдоподобия chi-square, )χ2=1ϕi=1Ndi2

E(i=1Ndi2)=E(ϕχ2)(Np)ϕ

Где - размерность . Для логистической регрессии мы имеем , что известно. Таким образом, мы можем использовать это для определения определенного уровня остатка, который является «приемлемым» или «разумным». Обычно это невозможно сделать для регрессии OLS (если у вас нет предварительной информации о шуме). А именно, мы ожидаем, что каждый остаток отклонения будет около . Слишком много и, вероятно, в модели отсутствуют важные эффекты (недостаточная подгонка); слишком много и вполне вероятно, что в модели имеются избыточные или побочные эффекты (чрезмерная подгонка). (это также может означать неправильное определение модели).pβϕ=11di21di21

Теперь это означает, что проблема для псевдо- заключается в том, что он не учитывает, что уровень биномиального отклонения предсказуем (при условии, что структура биномиальной ошибки не подвергается сомнению). Таким образом, хотя Nagelkerke варьируется от до , он все равно не масштабируется должным образом. Кроме того, я не могу понять, почему они называются псевдо если они не равны обычному когда вы устанавливаете «GLM» с идентификационной ссылкой и нормальной ошибкой. Например, эквивалентный R-квадрат Кокса-Снелла для нормальной ошибки (с использованием дисперсионной оценки REML) определяется как:R201R2R2

RCS2=1exp(NpNROLS21ROLS2)

Что, конечно, выглядит странно.

Я думаю, что лучшей мерой "Goodness of Fit" является сумма остатков отклонения, . Это в основном потому, что у нас есть цель.χ2


+1 Хорошая экспозиция проблем, на которые намекают в комментариях после ответа Шриканта .
whuber

Учитывая, что биномиальный GLM будет соответствовать с использованием итеративно переоцененных наименьших квадратов, почему можно было бы измерить качество соответствия, не сообщая о R2 взвешенного наименьшего квадрата при последней итерации IRLS, с которой подходил GLM? Как в stats.stackexchange.com/questions/412580/… ?
Том Венселерс

16

Я нашел короткую работу Туе Тьюра «Коэффициенты определения в моделях логистической регрессии - новое предложение: коэффициент дискриминации» (2009, американский статистик ) о различных предложениях по коэффициенту детерминации в логистических моделях весьма поучительной. Он делает хорошую работу, подчеркивая плюсы и минусы - и, конечно, предлагает новое определение. Очень рекомендую (хотя у меня самого нет любимого).


1
Спасибо за указание на эту статью; почему-то я пропустил это (и это появилось, когда я был в середине большого проекта логистической регрессии!).
whuber

3
Для записи это новое определение - , которое представляет собой среднее прогнозируемое значение для ответа минус среднее прогнозируемое значение для ответов. Может варьироваться от до . Tjur не отклонить Nagelkerke псевдо , но предполагает , что это не хватает «интуитивное обращение» пользуются . 1 0 0 1 R 2 DD=π^¯1π^¯01001R2D
whuber

8

Я также собирался сказать «ни один из них», поэтому я проголосовал за ответ whuber.

Наряду с критикой R ^ 2, Хосмер и Лемешоу предложили альтернативную меру пригодности для логистической регрессии, которая иногда бывает полезна. Это основано на делении данных на (скажем) 10 групп одинакового размера (или как можно ближе) путем упорядочения по прогнозируемой вероятности (или, что эквивалентно, по линейному предиктору), а затем сравнения наблюдаемого с ожидаемым количеством положительных ответов в каждой группе. и выполнение теста хи-квадрат. Этот тест на соответствие требованиям Hosmer-Lemeshow реализован в большинстве статистических программных пакетов.


3
Исходный тест HL GoF не очень мощный, поскольку он зависит от классификации непрерывной шкалы предикторов в произвольное число групп; H & L предложил рассмотреть дециль, но, очевидно, это зависит от размера выборки, и при некоторых обстоятельствах (например, модели IRT) у вас часто бывает очень мало людей на одном или обоих концах шкалы, так что отсечки расположены неравномерно. См. Сравнение критериев соответствия для модели логистической регрессии, Стат. Med. 1997 16 (9): 965, j.mp/aV2W6Iχ2
chl

Спасибо, это полезная ссылка, хотя ваша ссылка на j.mp привела меня к приглашению на вход в BiblioInserm. Вот дои на основе ссылка: dx.doi.org/10.1002/...
OneStop

Извините за неправильную ссылку ... Я помню, что Designпакет Фрэнка Харрелла содержит альтернативный тест H & L 1 df.
ЧЛ

3

Я бы предпочел Nagelkerke, поскольку эта модель соответствует 1, когда модель идеально подходит, давая читателю ощущение того, насколько далеко ваша модель от идеальной подгонки. Cox & Shell не достигает 1 для идеальной подгонки модели, и поэтому интерпретировать значение 0,09 немного сложнее. См. Этот URL для получения дополнительной информации о псевдо RSquared для объяснения различных типов посадки .


8
«Идеальная подгонка» настолько далека от достижения любой реалистической логистической регрессии, что кажется несправедливым использовать ее в качестве эталона или стандарта.
whuber

1
@whuber Правда, но вы можете использовать стандарт для сравнения относительной производительности двух конкурирующих моделей. Ваши баллы с низким R ^ 2 в вашем ответе и его последствия являются хорошими баллами, но если у вас есть (например, рецензенты требуют этого и т. Д.) Использовать некоторую форму R ^ 2, тогда Nagelkerke предпочтительнее.

1
@Skridant Да, все еще проблема рецензентов, которые хотят видеть исправление и Бонферрони везде ...R2
chl

@Srikant, @chl: циничное прочтение этой темы предлагает просто выбрать самый большой R ^ 2 среди всех этих отчетов программного обеспечения ;-).
whuber

2
@chl Конечно, необходимо дать отпор рецензентам / клиентам, но иногда мы также должны быть прагматичными. Если читатели не будут неверно истолковывать низкий R ^ 2 как недостаточную производительность модели, то проблемы, поднятые @whuber, будут в некоторой степени смягчены.

3

Несмотря на аргументы против использования псевдо-квадратов, некоторые люди по разным причинам захотят продолжать использовать их хотя бы в определенные моменты времени. То, что я усвоил из моих чтений (и я извиняюсь, что не могу предоставить цитаты в настоящее время), - то, что

  • если и C & S, и Nag. ниже .5, C & S будет лучшим показателем;
    если они оба выше .5, Наг. будем; и
    если они колеблются .5, Пунт.

Кроме того, формула, результаты которой часто попадают между этими двумя, упомянутая Скоттом Менаром в Прикладном логистическом регрессионном анализе (Sage), является

[-2LL0 - (-2LL1)]/-2LL0.

Это обозначено как «L» в таблице ниже.

введите описание изображения здесь


Что показывает эта картинка (что обозначает горизонтальная ось)? Кроме того, как последняя формула (которая выглядит как масштабная статистика отношения правдоподобия) точно отличается от Nagelkerke ? R2
chl

Анализ #: я пробовал различные анализы с разными наборами данных. Не имейте под рукой формулу Нагелькерке, но держу пари, она легко доступна.
rolando2

Пол Аллисон (Paul Allison) описывает формулу Нагелкерке, которая является скорректированной в сторону повышения формулой Кокса и Снелла, по адресу statisticshorizons.com/2013/02 . После прочтения этого блога и, как правило, в течение 2-3 лет, прошедших с момента проведения большей части этой дискуссии, я стал более убежденным, что недооценка Cox & Snell объясняет дисперсию и что мне лучше усреднять C & S и результат Nagelkerke.
rolando2
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.