Какая функция потерь подходит для логистической регрессии?

31

Я прочитал о двух версиях функции потерь для логистической регрессии, какая из них правильная и почему?

Из машинного обучения , Zhou ZH (на китайском языке), с : $\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b$

$\begin{matrix} (1) & l (β) = \sum_{i = 1}^{m} (- y_{i} β^{T} x_{i} + \ln (1 + e^{β^{T} x_{i}})) \end{matrix}$ $l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1$
Из моего курса в колледже, с : $z_i = y_if(x_i)=y_i(w^Tx_i + b)$

$\begin{matrix} (2) & L (z_{i}) = \log (1 + e^{- z_{i}}) \end{matrix}$ $L(z_i)=\log(1+e^{-z_i}) \tag 2$

Я знаю, что первая - это совокупность всех выборок, а вторая - для одной выборки, но мне более любопытно различие в форме двух функций потерь. Почему-то у меня такое ощущение, что они эквивалентны.

logistic loss-functions

— ХТТ
источник

31

Соотношение следующее: . $l(\beta) = \sum_i L(z_i)$

Определите логистическую функцию как . Они обладают свойством, что . Или другими словами: $f(z) = \frac{e^{z}}{1 + e^{z}} = \frac{1}{1+e^{-z}}$ $f(-z) = 1-f(z)$

\frac{1}{1 + e^{z}} = \frac{e^{- z}}{1 + e^{- z}} .

$\frac{1}{1+e^{z}} = \frac{e^{-z}}{1+e^{-z}}.$

Если вы возьмете взаимность обеих сторон, то возьмите журнал, который вы получите:

\ln (1 + e^{z}) = \ln (1 + e^{- z}) + z .

$\ln(1+e^{z}) = \ln(1+e^{-z}) + z.$

Вычтите с обеих сторон, и вы должны увидеть это: $z$

- y_{i} β^{T} x_{i} + l n (1 + e^{y_{i} β^{T} x_{i}}) = L (z_{i}) .

$-y_i\beta^Tx_i+ln(1+e^{y_i\beta^Tx_i}) = L(z_i).$

Редактировать:

В данный момент я перечитываю этот ответ и не понимаю, почему я получил равный . Возможно, в первоначальном вопросе есть опечатка. $-y_i\beta^Tx_i+ln(1+e^{\beta^Tx_i})$ $-y_i\beta^Tx_i+ln(1+e^{y_i\beta^Tx_i})$

Изменить 2:

В случае, если в первоначальном вопросе не было опечатки, @ManelMorales представляется правильным привлечь внимание к тому факту, что когда , функцию вероятности можно записать в виде из-за свойства . Я переписываю это по-другому здесь, потому что он вводит новую двусмысленность в обозначении . Остальное следует, принимая отрицательное логарифмическое правдоподобие для каждого кодирования. Смотрите его ответ ниже для более подробной информации. $y \in \{-1,1\}$ $P(Y_i=y_i) = f(y_i\beta^Tx_i)$ $f(-z) = 1 - f(z)$ $z_i$ $y$

— Тейлор
источник

42

OP ошибочно полагает, что взаимосвязь между этими двумя функциями обусловлена количеством выборок (то есть одной и всех). Однако реальная разница заключается в том, как мы выбираем наши учебные ярлыки.

В случае бинарной классификации мы можем присвоить метки или . $y=\pm1$ $y=0,1$

Как уже было сказано, логистическая функция является хорошим выбором, поскольку она имеет вид вероятности, т.е. и как . Если мы выберем метки мы можем назначить $\sigma(z)$ $\sigma(-z)=1-\sigma(z)$ $\sigma(z)\in (0,1)$ $z\rightarrow \pm \infty$ $y=0,1$

\begin{aligned} P (y = 1 | z) & = σ (z) = \frac{1}{1 + e^{- z}} \\ P (y = 0 | z) & = 1 - σ (z) = \frac{1}{1 + e^{z}} \end{aligned}

$\begin{equation} \begin{aligned} \mathbb{P}(y=1|z) & =\sigma(z)=\frac{1}{1+e^{-z}}\\ \mathbb{P}(y=0|z) & =1-\sigma(z)=\frac{1}{1+e^{z}}\\ \end{aligned} \end{equation}$

который можно записать более компактно как . $\mathbb{P}(y|z) =\sigma(z)^y(1-\sigma(z))^{1-y}$

Проще максимизировать логарифмическую вероятность. Максимизация логарифмической вероятности аналогична минимизации отрицательной логарифмической вероятности. Для выборок , после натурального логарифма и некоторого упрощения, мы выясним: $m$ $\{x_i,y_i\}$

\begin{aligned} l (z) = - \log (\prod_{i}^{m} P (y_{i} | z_{i})) = - \sum_{i}^{m} \log (P (y_{i} | z_{i})) = \sum_{i}^{m} - y_{i} z_{i} + \log (1 + e^{z_{i}}) \end{aligned}

$\begin{equation} \begin{aligned} l(z)=-\log\big(\prod_i^m\mathbb{P}(y_i|z_i)\big)=-\sum_i^m\log\big(\mathbb{P}(y_i|z_i)\big)=\sum_i^m-y_iz_i+\log(1+e^{z_i}) \end{aligned} \end{equation}$

Полный вывод и дополнительная информация могут быть найдены на этом ноутбуке Jupyter . С другой стороны, мы могли бы вместо этого использовать метки . Тогда совершенно очевидно, что мы можем назначить $y=\pm 1$

P (y | z) = σ (y z) .

$\begin{equation} \mathbb{P}(y|z)=\sigma(yz). \end{equation}$

Также очевидно, что . Следуя тем же шагам, что и раньше, мы минимизируем в этом случае функцию потерь $\mathbb{P}(y=0|z)=\mathbb{P}(y=-1|z)=\sigma(-z)$

\begin{aligned} L (z) = - \log (\prod_{j}^{m} P (y_{j} | z_{j})) = - \sum_{j}^{m} \log (P (y_{j} | z_{j})) = \sum_{j}^{m} \log (1 + e^{- y z_{j}}) \end{aligned}

$\begin{equation} \begin{aligned} L(z)=-\log\big(\prod_j^m\mathbb{P}(y_j|z_j)\big)=-\sum_j^m\log\big(\mathbb{P}(y_j|z_j)\big)=\sum_j^m\log(1+e^{-yz_j}) \end{aligned} \end{equation}$

Где последний шаг следует после того, как мы берем обратную величину, вызванную отрицательным знаком. Хотя мы не должны приравнивать эти две формы, учитывая, что в каждой форме принимает разные значения, тем не менее эти две формы эквивалентны: $y$

\begin{aligned} - y_{i} z_{i} + \log (1 + e^{z_{i}}) \equiv \log (1 + e^{- y z_{j}}) \end{aligned}

$\begin{equation} \begin{aligned} -y_iz_i+\log(1+e^{z_i})\equiv \log(1+e^{-yz_j}) \end{aligned} \end{equation}$

Случай тривиален, чтобы показать. Если , то с левой стороны и с правой стороны. $y_i=1$ $y_i \neq 1$ $y_i=0$ $y_i=-1$

Хотя могут быть фундаментальные причины того, почему у нас есть две разные формы (см. Почему существуют две разные формулировки / обозначения логистических потерь? ), Одна из причин выбора первой заключается в практических соображениях. В первом случае мы можем использовать свойство для тривиального вычисления и , оба из которых необходимы для анализа сходимости (т. е. для определения выпуклости функции потерь путем вычисления гессиана ). $\partial \sigma(z) / \partial z=\sigma(z)(1-\sigma(z))$ $\nabla l(z)$ $\nabla^2l(z)$

— Мануэль Моралес
источник

Является ли функция логистических потерь выпуклой?

— user85361

2

Лог reg IS выпуклый, но не выпуклый . Таким образом, мы не можем ограничить время, необходимое для схода градиента. Мы можем настроить форму чтобы она сильно выпукла, добавив член регуляризации: с положительной константой определим нашу новую функцию как st является - сильно выпуклые , и теперь мы можем доказать сходимость грань . К сожалению, мы сейчас сворачиваем другую функцию! К счастью, мы можем показать, что значение оптимума регуляризованной функции близко к значению оптимума оригинала.

l (z)

$l(z)$

α

$\alpha$

l

$l$

λ

$\lambda$

l^{'} (z) = l (z) + λ ‖ z ‖^{2}

$l'(z)=l(z)+\lambda\|z\|^2$

l^{'} (z)

$l'(z)$

λ

$\lambda$

l^{'}

$l'$

— Мануэль Моралес

Ноутбук вы упомянули ушел, я получил еще одно доказательство: statlect.com/fundamentals-of-statistics/...

— Domi.Zhang

2

Я нашел, что это самый полезный ответ.

— mohit6up

@ManuelMorales У вас есть ссылка на оптимальное значение регуляризованной функции, близкое к оригинальному?

— Марк

19

Я изучил функцию потерь для логистической регрессии следующим образом.

Логистическая регрессия выполняет двоичную классификацию, поэтому выходные данные меток являются двоичными, 0 или 1. Пусть будет вероятностью того, что двоичный выход равен 1, учитывая вектор входных признаков . Коэффициенты - это веса, которые алгоритм пытается выучить. $P(y=1|x)$ $y$ $x$ $w$

P (y = 1 | x) = \frac{1}{1 + e^{- w^{T} x}}

$P(y=1|x) = \frac{1}{1 + e^{-w^{T}x}}$

Поскольку логистическая регрессия является двоичной, вероятность просто равна 1 минус термин выше. $P(y=0|x)$

P (y = 0 | x) = 1 - \frac{1}{1 + e^{- w^{T} x}}

$P(y=0|x) = 1- \frac{1}{1 + e^{-w^{T}x}}$

Функция потерь представляет собой сумму (A) выходных данных умноженных на и (B) выходных данных умноженных на для одного примера обучения, суммированных более учебных примеров. $J(w)$ $y=1$ $P(y=1)$ $y=0$ $P(y=0)$ $m$

J (w) = \sum_{i = 1}^{m} y^{(i)} \log P (y = 1) + (1 - y^{(i)}) \log P (y = 0)

$J(w) = \sum_{i=1}^{m} y^{(i)} \log P(y=1) + (1 - y^{(i)}) \log P(y=0)$

где обозначает метку в ваших тренировочных данных. Если обучающий экземпляр имеет метку , то , оставляя левое слагаемое на месте, но делая правое слагаемое с равным . С другой стороны, если обучающий экземпляр имеет , то правое слагаемое с членом остается на месте, но левое слагаемое становится . Логарифмическая вероятность используется для простоты расчета. $y^{(i)}$ $i^{th}$ $1$ $y^{(i)}=1$ $1-y^{(i)}$ $0$ $y=0$ $1-y^{(i)}$ $0$

Если затем мы заменим и на более ранние выражения, то получим: $P(y=1)$ $P(y=0)$

J (w) = \sum_{i = 1}^{m} y^{(i)} \log (\frac{1}{1 + e^{- w^{T} x}}) + (1 - y^{(i)}) \log (1 - \frac{1}{1 + e^{- w^{T} x}})

$J(w) = \sum_{i=1}^{m} y^{(i)} \log \left(\frac{1}{1 + e^{-w^{T}x}}\right) + (1 - y^{(i)}) \log \left(1- \frac{1}{1 + e^{-w^{T}x}}\right)$

Вы можете прочитать больше об этой форме в этих лекциях Стэнфорда .

— stackoverflowuser2010
источник

Этот ответ также дает некоторые соответствующие перспективы здесь.

— GeoMatt22

6

Выражение, которое вы имеете, - это не потеря (для минимизации), а логарифмическая вероятность (для максимизации).

— ксеноцион

2

@ xenocyon true - эта же формулировка обычно пишется с отрицательным знаком, применяемым для полного суммирования.

— Алекс Клибиш

1

Вместо Mean Squared Error мы используем функцию стоимости, называемую Cross-Entropy, также известную как Log Loss. Кросс-энтропийные потери можно разделить на две отдельные функции затрат: одну для y = 1 и одну для y = 0.

\begin{aligned} j (θ) & = \frac{1}{m} \sum_{i = 1}^{m} C o s t (h_{θ} (x^{(i)}), y^{(i)}) \\ C o s t (h_{θ} (x), y) & = - \log (h_{θ} (x)) & i f y & = 1 \\ C o s t (h_{θ} (x), y) & = - \log (1 - h_{θ} (x)) & i f y & = 0 \end{aligned}

$\begin{align}\newcommand{\Cost}{{\rm Cost}}\newcommand{\if}{{\rm if}} j(\theta) &= \frac 1 m \sum_{i=1}^m \Cost(h_\theta(x^{(i)}), y^{(i)}) & & \\ \Cost(h_\theta(x), y) &= -\log(h_\theta(x)) & \if\ y &= 1 \\ \Cost(h_\theta(x), y) &= -\log(1-h_\theta(x)) & \if\ y &= 0 \end{align}$

Когда мы собираем их вместе, мы имеем:

j (θ) = \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} \log (h_{θ} (x^{(i)})) + (1 - y^{(i)}) \log (1 - h_{θ} (x)^{(i)})]

$j(\theta) = \frac 1 m \sum_{i=1}^m \big[y^{(i)}\log(h_\theta(x^{(i)})) + (1-y^{(i)})\log(1-h_\theta(x)^{(i)}) \big]$

Умножение на и в вышеприведенном уравнении является хитрым трюком, который позволяет нам использовать одно и то же уравнение для решения обоих случаев и . Если , первая сторона отменяется. Если , вторая сторона отменяется. В обоих случаях мы выполняем только ту операцию, которая нам нужна. $y$ $(1−y)$ $y=1$ $y=0$ $y=0$ $y=1$

Если вы не хотите использовать forцикл, вы можете попробовать векторизованную форму уравнения выше

\begin{aligned} h & = g (X θ) \\ J (θ) & = \frac{1}{m} \cdot (- y^{T} \log (h) - (1 - y)^{T} \log (1 - h)) \end{aligned}

$\begin{align} h &= g(X\theta) \\ J(\theta) &= \frac 1 m \cdot \big(-y^T\log(h)-(1-y)^T\log(1-h)\big) \end{align}$

Полное объяснение можно посмотреть на листе машинного обучения .

— Эмануэль Фонтеллес
источник