OP ошибочно полагает, что взаимосвязь между этими двумя функциями обусловлена количеством выборок (то есть одной и всех). Однако реальная разница заключается в том, как мы выбираем наши учебные ярлыки.
В случае бинарной классификации мы можем присвоить метки или .y=±1y=0,1
Как уже было сказано, логистическая функция является хорошим выбором, поскольку она имеет вид вероятности, т.е. и как . Если мы выберем метки мы можем назначить σ(z)σ(−z)=1−σ(z)σ(z)∈(0,1)z→±∞y=0,1
P(y=1|z)P(y=0|z)=σ(z)=11+e−z=1−σ(z)=11+ez
который можно записать более компактно как .P(y|z)=σ(z)y(1−σ(z))1−y
Проще максимизировать логарифмическую вероятность. Максимизация логарифмической вероятности аналогична минимизации отрицательной логарифмической вероятности. Для выборок , после натурального логарифма и некоторого упрощения, мы выясним:m{xi,yi}
l(z)=−log(∏imP(yi|zi))=−∑imlog(P(yi|zi))=∑im−yizi+log(1+ezi)
Полный вывод и дополнительная информация могут быть найдены на этом ноутбуке Jupyter . С другой стороны, мы могли бы вместо этого использовать метки . Тогда совершенно очевидно, что мы можем назначитьy=±1
P(y|z)=σ(yz).
Также очевидно, что . Следуя тем же шагам, что и раньше, мы минимизируем в этом случае функцию потерьP(y=0|z)=P(y=−1|z)=σ(−z)
L(z)=−log(∏jmP(yj|zj))=−∑jmlog(P(yj|zj))=∑jmlog(1+e−yzj)
Где последний шаг следует после того, как мы берем обратную величину, вызванную отрицательным знаком. Хотя мы не должны приравнивать эти две формы, учитывая, что в каждой форме принимает разные значения, тем не менее эти две формы эквивалентны:y
−yizi+log(1+ezi)≡log(1+e−yzj)
Случай тривиален, чтобы показать. Если , то с левой стороны и с правой стороны.yi=1yi≠1yi=0yi=−1
Хотя могут быть фундаментальные причины того, почему у нас есть две разные формы (см. Почему существуют две разные формулировки / обозначения логистических потерь? ), Одна из причин выбора первой заключается в практических соображениях. В первом случае мы можем использовать свойство для тривиального вычисления и , оба из которых необходимы для анализа сходимости (т. е. для определения выпуклости функции потерь путем вычисления гессиана ).∂σ(z)/∂z=σ(z)(1−σ(z))∇l(z)∇2l(z)