Тест на пригодность в логистической регрессии; какую «посадку» мы хотим проверить?

Я имею в виду вопрос и его ответы: как сравнить (вероятностную) прогностическую способность моделей, разработанных на основе логистической регрессии? @ Clark Chong и ответы / комментарии @Frank Harrell. и к вопросу о Степени свободы в тесте Хосмера-Лемешоу $\chi^2$ и комментариях.

Я прочитал статью DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, «Сравнение тестов на пригодность для модели логистической регрессии», Statistics in Medicine, Vol. 16, 965-980 (1997) .

После прочтения я был сбит с толку, потому что вопрос, на который я ссылался, явно спрашивает о «(вероятностной) способности к предсказанию», что, на мой взгляд, не совпадает с тем, на что нацелены критерии качества соответствия в статье выше:

Как большинство из нас знает, логистическая регрессия предполагает S-образную связь между объясняющими переменными и вероятностью успеха, функциональная форма для S-формы

$P(y=1|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}}$

Не претендуя на то, что в тесте Хосмера – Лемешова нет недостатков, я думаю, что мы должны различать тесты на (а) «(вероятностную) предсказательную способность » и (б) « добротность соответствия ».

Цель первого - проверить, хорошо ли предсказаны вероятности, в то время как тесты на пригодность соответствия проверяют, является ли приведенная выше S-образная функция «правильной». Более формально:

тесты для «тестов на способность прогнозировать вероятность» имеют утверждающий, что вероятности успеха хорошо предсказываются моделью; $H_0$
в то время как для тестов на пригодность (см. Hosmer et. al.) S-образная функциональная форма выше является правильной. Хосмер и соавт. выполнить моделирование, где они находят способность обнаруживать два типа отклонений от нуля, а именно, что функция связи неправильна или что показатель степени в знаменателе не является линейным. $H_0$

Очевидно, что если вышеуказанная функция имеет «правильную» функциональную форму (поэтому, если тесты заключают, что мы можем принять для теста на соответствие критерия соответствия), то прогнозируемые вероятности будут хорошими, ... $H_0$

Первое замечание

... однако принятие является слабым выводом, как объяснено в разделе Что следует, если мы не сможем отвергнуть нулевую гипотезу? , $H_0$

Первый вопрос

Самый важный вопрос / замечание, которое у меня есть, заключается в том, что если отклонение критерия качества отклонено, то вывод теста состоит в том, что функциональная форма не была «правильной», однако, означает ли это, что вероятности не очень хорошо предсказано? $H_0$

Второй вопрос

Кроме того, я хочу указать на выводы Hosmer et. аль; (Я цитирую из резюме):

«Проверка эффективности тестов, когда правильная модель имеет квадратичный термин, но модель, содержащая только линейный термин, подходит, показывает, что хи-квадрат Пирсона, невзвешенная сумма квадратов, дециль Хосмера-Лемешоу риска, сглаженная остаточная сумма квадратов и критерий оценки Стукеля имеют мощность, превышающую 50%, для обнаружения умеренных отклонений от линейности, когда размер выборки равен 100, и имеют мощность более 90% для тех же самых альтернатив для выборок размером 500 Все тесты не имели силы, когда правильная модель имела взаимодействие между дихотомической и непрерывной ковариатой, но подходила только непрерывная ковариатная модель. Способность обнаружить неправильно заданную ссылку была плохой для образцов размером 100. Для образцов размером 500 Stukel ' Тест с оценками показал лучшую мощность, но он превысил 50% для определения функции асимметричной связи. Мощность теста невзвешенных сумм квадратов для обнаружения неправильно заданной функции связи была немного меньше, чем критерий оценки Стукеля ''

Можно ли из этого сделать вывод, какой тест имеет большую мощность или что Хосмер-Лемешоу имеет меньшую мощность (для обнаружения этих специфических аномалий)?

Второе замечание

Статья Hosmer et. и др. что я упомянул выше, вычислить (смоделировать) мощность для обнаружения определенных аномалий (мощность может быть вычислена, только если указан ). По моему мнению, это не означает, что эти результаты могут быть обобщены на «все возможные альтернативы »? $H_1$ $H_1$

— Сообщество
источник

«Хорошее соответствие» иногда используется в каком-то смысле как противоречие очевидной неправильной спецификации модели, «отсутствие соответствия»; и иногда в другом смысле как прогнозирующая характеристика модели - насколько хорошо прогнозы соответствуют наблюдениям. Тест Хосмера – Лемешоу предназначен для проверки пригодности в первом смысле, и хотя свидетельство недостаточного соответствия предполагает прогнозирующую эффективность (показатель GoF во втором смысле, измеряемый, скажем, показателями Nagelkerke или Brier), можно Никто не знает, как или сколько, пока вы не попробуете конкретные улучшения (как правило, путем включения терминов взаимодействия, или сплайновой или полиномиальной основы для представления непрерывных предикторов для обеспечения криволинейных отношений с логитом; иногда путем изменения ссылки). $R^2$

Тесты на пригодность подходят, чтобы иметь разумную силу против множества альтернатив, а не высокую против конкретной альтернативы; поэтому люди, сравнивающие возможности различных тестов, имеют тенденцию выбирать прагматичный подход, выбирая несколько альтернатив, которые, как считается, представляют особый интерес для потенциальных пользователей (см., например, часто цитируемые Стивенс (1974), «Статистика EDF для определения соответствия»). и некоторые сравнения ", JASA, 69 , 347 ). Вы не можете сделать вывод, что один тест более силен, чем другой, против всех возможных альтернатив, потому что он более силен против некоторых.

— Scortchi - Восстановить Монику
источник

В некоторых случаях можно показать, что тест «равномерно более силен», что означает, что он более силен для всех возможных альтернатив (см. Теорему Карлина / Рубина). Но вы правы, что это только в исключительных случаях и, конечно, не в настройках теста Хосмера-Лемешоу.

В общем, "доброй подгонке" уделяется слишком много внимания ИМХО. Лучшая альтернатива - сделать так, чтобы модель подходила спереди. Это делается с помощью сплайнов регрессии, чтобы ослабить предположения о линейности, и включая взаимодействия, которые имели бы смысл.

— Фрэнк Харрелл

@fcoppens: Хорошая мысль! Тесты UMP можно получить только путем строгого ограничения рассматриваемых альтернатив значениями скалярного параметра, и даже не всегда. Даже если принять во внимание, является ли тест недопустимым - есть по крайней мере еще один тест, который обладает большей мощностью при всех альтернативах - потребует слишком большого ограничения альтернатив для теста общего назначения GOF.

— Scortchi - Восстановить Монику