Модель логистической регрессии - это максимальная вероятность, использующая естественный параметр (отношение логарифмических шансов) для сопоставления относительных изменений риска результата на единицу разницы в предикторе. Это предполагает, конечно, биномиальную модель вероятности для результата. Это означает, что свойства согласованности и устойчивости логистической регрессии простираются непосредственно от максимальной вероятности: устойчивые к отсутствию случайных данных, согласованности root-n, а также наличия и уникальности решений для оценки уравнений. Это при условии, что решения не находятся на границах пространства параметров (где отношения логарифмов равны ). Поскольку логистическая регрессия является максимальной вероятностью, функция потерь связана с вероятностью, поскольку они являются эквивалентными задачами оптимизации.±∞
В случае квазилидных или оценивающих уравнений (полупараметрический вывод) существование, свойства уникальности все еще сохраняются, но предположение о том, что средняя модель имеет место, не имеет значения, а логический вывод и стандартные ошибки согласованы независимо от ошибочной спецификации модели. Таким образом, в данном случае вопрос не в том, является ли сигмоида правильной функцией, а в том, что дает нам тенденцию, в которую мы можем верить, и параметризуемую параметрами, которые имеют расширяемую интерпретацию.
Сигмоид, однако, не единственная такая функция бинарного моделирования. Наиболее часто контрастирующая пробит-функция имеет аналогичные свойства. Он не оценивает отношения логарифмов, но функционально они выглядят очень похожими и имеют тенденцию давать очень похожие приближения к одной и той же вещи . Также не нужно использовать свойства привязанности в средней модели. Простое использование логарифмической кривой с функцией биномиальной дисперсии дает регрессию относительного риска, а идентификационная связь с биномиальной дисперсией - модели аддитивного риска. Все это определяется пользователем. К сожалению, популярность логистической регрессии так часто используется. Тем не менее, у меня есть свои причины (те, которые я изложил), почему я думаю, что это вполне оправдано для использования в большинстве случаев моделирования двоичного результата.
В мире логического вывода для редких результатов отношение шансов можно грубо интерпретировать как «относительный риск», то есть «относительное процентное изменение риска исхода при сравнении X + 1 и X». Это не всегда так, и, как правило, отношение шансов не может и не должно интерпретироваться как таковое. Однако то, что параметры имеют интерпретацию и могут быть легко переданы другим исследователям, является важным моментом, чего, к сожалению, не хватает в дидактических материалах машинного обучения.
Модель логистической регрессии также обеспечивает концептуальные основы для более сложных подходов, таких как иерархическое моделирование, а также подходы смешанного моделирования и условного правдоподобия, которые являются последовательными и устойчивыми к экспоненциально растущему числу параметров помех. GLMM и условная логистическая регрессия являются очень важными понятиями в многомерной статистике.