Хотя этот вопрос и его первый ответ, кажется, сосредоточены на теоретических вопросах калибровки модели логистической регрессии, проблема:
Как можно испортить калибровку логистической регрессии ...?
заслуживает некоторого внимания в отношении реальных приложений, для будущих читателей этой страницы. Мы не должны забывать, что модель логистической регрессии должна быть четко определена, и что эта проблема может быть особенно проблематичной для логистической регрессии.
Во-первых, если логарифм членства в классе не связан линейно с предикторами, включенными в модель, он не будет хорошо откалиброван. Глава 10 Харрелла о бинарной логистической регрессии посвящает около 20 страниц «Оценке соответствия модели», чтобы можно было воспользоваться «асимптотической непредвзятостью оценки максимального правдоподобия», как это выразилось @whuber, на практике.
Во-вторых, спецификация модели представляет собой особую проблему в логистической регрессии, поскольку она имеет присущую опущенную переменную погрешность, которая может удивлять тех, кто имеет опыт обычной линейной регрессии. Как написано на этой странице:
Пропущенные переменные будут смещать коэффициенты включенных переменных, даже если пропущенные переменные не связаны с включенными переменными.
На этой странице также есть полезное объяснение того, почему такое поведение следует ожидать, с теоретическим объяснением связанных, аналитически управляемых, пробитных моделей. Поэтому, если вы не знаете, что вы включили все предикторы, связанные с членством в классе, вы можете столкнуться с опасностями неправильной спецификации и плохой калибровки на практике.
Что касается спецификации модели, вполне возможно, что основанные на деревьях методы, такие как случайный лес, которые не предполагают линейности по всему диапазону значений предикторов и по своей природе обеспечивают возможность находить и включать взаимодействия между предикторами, в конечном итоге получат калиброванная модель на практике, чем модель логистической регрессии, которая недостаточно учитывает условия взаимодействия или нелинейность. Что касается смещения пропущенных переменных, мне не ясно, может ли какой-либо метод оценки вероятностей членства в классе адекватно решить эту проблему.