Интуиция позади логистической регрессии

Недавно я начал изучать машинное обучение, однако мне не удалось понять интуицию, лежащую в основе логистической регрессии .

Ниже приведены факты о логистической регрессии, которые я понимаю.

В качестве основы для гипотезы мы используем сигмовидную функцию . Я понимаю , почему это правильный выбор, однако , почему это единственный выбор , который я не понимаю. Гипотеза представляет вероятность того, что соответствующий вывод равен , поэтому область нашей функции должна быть , это единственное свойство сигмоидальной функции, которое я нашел здесь полезным и подходящим, однако многие функции удовлетворяют этому свойству. Кроме того, сигмоидная функция имеет производную в этой форме , но я не вижу полезности этой специальной формы в логистической регрессии. $1$ $[0,1]$ $f(x)(1-f(x))$

Вопрос : что особенного в сигмоидальной функции и почему мы не можем использовать любую другую функцию с доменом ? $[0,1]$
Функция стоимости состоит из двух параметров если если . В том же, что и выше, я понимаю, почему это правильно, но почему это единственная форма? Например, почему не можетбыть хорошим выбором для функции стоимости? ${\rm Cost}(h_{\theta}(x),y)=-\log(h_{\theta}(x))$ $y=1, {\rm Cost}(h_{\theta}(x),y)=-\log(1-h_{\theta}(x))$ $y=0$ $|h_{\theta(x)}-y|$

Вопрос : что особенного в вышеуказанной форме функции стоимости; почему мы не можем использовать другую форму?

Буду признателен, если вы поделитесь своим пониманием логистической регрессии.

regression machine-learning logistic

— user16168
источник

Логит / логистическая функция - не единственная функция, которую можно использовать в качестве функции связи для регрессионных моделей, когда ответ распределяется в виде бинома. Что касается этого пункта, он может помочь вам прочитать мой ответ здесь: различие между logit-and-probit-models .

— gung - Восстановить Монику

Мой ответ здесь: всегда ли функция logit наилучшая для регрессионного моделирования двоичных данных , она также может быть полезна для размышлений о различных возможностях.

— gung - Восстановить Монику

@AdamO предоставляет отличный обзор ниже. Если вам нужна более подробная информация о том, что означает, что logit является «канонической функцией связи», вы можете прочитать ответ Момо здесь: разность-связь-функция-и-каноническая ссылка-функция-для-glm .

— gung - Восстановить Монику

Проработанный иллюстрированный пример (1), где «сигмоид» не используется, представлен на stats.stackexchange.com/a/70922 . Этот ответ включает в себя объяснение (2). Другой пример появляется на stats.stackexchange.com/questions/63978/… . Более обычное (но менее техническое) обсуждение происходит на stats.stackexchange.com/a/69873 с упором на проблему (2).

— whuber

Ответы:

Модель логистической регрессии - это максимальная вероятность, использующая естественный параметр (отношение логарифмических шансов) для сопоставления относительных изменений риска результата на единицу разницы в предикторе. Это предполагает, конечно, биномиальную модель вероятности для результата. Это означает, что свойства согласованности и устойчивости логистической регрессии простираются непосредственно от максимальной вероятности: устойчивые к отсутствию случайных данных, согласованности root-n, а также наличия и уникальности решений для оценки уравнений. Это при условии, что решения не находятся на границах пространства параметров (где отношения логарифмов равны ). Поскольку логистическая регрессия является максимальной вероятностью, функция потерь связана с вероятностью, поскольку они являются эквивалентными задачами оптимизации. $\pm \infty$

В случае квазилидных или оценивающих уравнений (полупараметрический вывод) существование, свойства уникальности все еще сохраняются, но предположение о том, что средняя модель имеет место, не имеет значения, а логический вывод и стандартные ошибки согласованы независимо от ошибочной спецификации модели. Таким образом, в данном случае вопрос не в том, является ли сигмоида правильной функцией, а в том, что дает нам тенденцию, в которую мы можем верить, и параметризуемую параметрами, которые имеют расширяемую интерпретацию.

Сигмоид, однако, не единственная такая функция бинарного моделирования. Наиболее часто контрастирующая пробит-функция имеет аналогичные свойства. Он не оценивает отношения логарифмов, но функционально они выглядят очень похожими и имеют тенденцию давать очень похожие приближения к одной и той же вещи . Также не нужно использовать свойства привязанности в средней модели. Простое использование логарифмической кривой с функцией биномиальной дисперсии дает регрессию относительного риска, а идентификационная связь с биномиальной дисперсией - модели аддитивного риска. Все это определяется пользователем. К сожалению, популярность логистической регрессии так часто используется. Тем не менее, у меня есть свои причины (те, которые я изложил), почему я думаю, что это вполне оправдано для использования в большинстве случаев моделирования двоичного результата.

В мире логического вывода для редких результатов отношение шансов можно грубо интерпретировать как «относительный риск», то есть «относительное процентное изменение риска исхода при сравнении X + 1 и X». Это не всегда так, и, как правило, отношение шансов не может и не должно интерпретироваться как таковое. Однако то, что параметры имеют интерпретацию и могут быть легко переданы другим исследователям, является важным моментом, чего, к сожалению, не хватает в дидактических материалах машинного обучения.

Модель логистической регрессии также обеспечивает концептуальные основы для более сложных подходов, таких как иерархическое моделирование, а также подходы смешанного моделирования и условного правдоподобия, которые являются последовательными и устойчивыми к экспоненциально растущему числу параметров помех. GLMM и условная логистическая регрессия являются очень важными понятиями в многомерной статистике.

— Adamo
источник

Большое спасибо за ответ! Кажется, у меня огромный недостаток в фоновом режиме.

— user16168

Я думаю, что книга Маккалоу и Нелдера «Обобщенные линейные модели» была бы отличным справочным ресурсом для большей статистики.

— AdamO

В целом, какой учебник вы советуете по машинному обучению с очень подробным описательным содержанием?

— user16168 30.09.13

Элементы статистического обучения Хасти, Тибширани, Фридмана.

— AdamO

@ user48956 Статистический анализ с Missing Dada, Little & Rubin 2nd ed. Пропущенные данные не «представлены» как таковые, а «обработаны» пропуском. Это не относится к логистической регрессии: это наивный подход, используемый всеми статистическими моделями. Когда данные форматируются в прямоугольном массиве, строки с пропущенными значениями опускаются. Это известно как полный анализ случая. GLM и GLMMS устойчивы к отсутствующим данным в том смысле, что полный анализ случаев, как правило, беспристрастен и не очень неэффективен.

— AdamO

$Y$ $X$ $Y$ $Y$ $X$ $Y_i=X_i\beta+\epsilon_i$

$Y^*$ $Y$ $Y^*$

\begin{aligned} Y_{я}^{*} & знак равно {Икс}_{я} β + ε_{я} \\ Y_{я} & знак равно 0 если Y_{я}^{*} < 0 \\ Y_{я} & знак равно 1 если Y_{я}^{*} > 0 \end{aligned}

$\begin{align} Y^*_i &= X_i \beta + \epsilon_i\\ &\\ Y_i &= 0 \;\textrm{if}\; Y_i^*<0\\ Y_i &= 1 \; \textrm{if} \; Y_i^*>0 \end{align}$

X

$X$

$Y^*$ $X$ $Y$ $Y^*$

$\beta$ $\epsilon$ $F$ $P\{Y_i=1\}=F(X_i\beta)$

$P\{Y_i=1\}=1-F(-X_i\beta)$

$\epsilon$ $F$

$F$

— Билл
источник

То, что вы описали, это именно мотивация для пробитной модели, а не логистическая регрессия.

— AdamO

ϵ_{i}

$\epsilon_i$

Это похоже на очень деликатное предположение, которое было бы трудно проверить. Я думаю, что логистическая регрессия может быть мотивирована, когда такие распределения ошибок не выполняются.

— AdamO

@AdamO, как бы вы ни мотивировали логистическую регрессию, она все равно математически эквивалентна пороговой модели линейной регрессии, в которой ошибки имеют логистическое распределение. Я согласен, что это предположение может быть трудно проверить, но оно существует независимо от того, как вы мотивируете проблему. Я вспоминаю предыдущий ответ на резюме (я не могу его сейчас разместить), который показал в ходе имитационного исследования, что попытка определить, подходит ли логистическая или пробитовая модель «лучше», была в основном монетой, независимо от истинной модели генерирования данных. , Я подозреваю, что логистика более популярна из-за удобной интерпретации.

— Макрос

P (Y_{i} = 1) = \frac{e x p (X_{i} β)}{1 + e x p (X_{i} β)}

$P(Y_i=1)=\frac{exp(X_i\beta)}{1+exp(X_i\beta)}$