Различные определения функции кросс-энтропийной потери

12

Я начал с изучения нейронных сетей с помощью учебника по нейронным сетям и углублённому изучению точек. В частности, в 3-й главе есть раздел о функции кросс-энтропии, который определяет потерю кросс-энтропии как:

$C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j))$

Однако, читая введение Tensorflow , потеря перекрестной энтропии определяется как:

(при использовании тех же символов, что и выше) $C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j)$

Затем, отыскивая, что происходит, я нашел другой набор заметок: ( https://cs231n.github.io/linear-classify/#softmax-classifier ), который использует совершенно другое определение перекрестной потери энтропии, хотя это время для классификатора softmax, а не для нейронной сети.

Может кто-нибудь объяснить мне, что здесь происходит? Почему есть расхождения между прочим. как люди определяют потерю кросс-энтропии? Есть ли какой-то всеобъемлющий принцип?

— Реджинальд
источник

Тесно связанные: stats.stackexchange.com/questions/260505/…

— Sycorax сообщает, что восстановите Монику

18

Эти три определения по сути одинаковы.

C = - \frac{1}{n} \sum_{x} \sum_{j} (y_{j} \ln a_{j}) .

$C = -\frac{1}{n} \sum\limits_x\sum\limits_{j} (y_j \ln a_j).$

$j=2$

C = - \frac{1}{n} \sum_{x} (y_{1} \ln a_{1} + y_{2} \ln a_{2})

$C = -\frac{1}{n} \sum\limits_x (y_1 \ln a_1 + y_2 \ln a_2)$

\sum_{j} a_{j} = 1

$\sum_ja_j=1$

\sum_{j} y_{j} = 1

$\sum_jy_j=1$

C = - \frac{1}{n} \sum_{x} (y_{1} \ln a_{1} + (1 - y_{1}) \ln (1 - a_{1}))

$C = -\frac{1}{n} \sum\limits_x (y_1 \ln a_1 + (1-y_1) \ln (1-a_1))$

$y$ $y_k$

C_{x} = - \sum_{j} (y_{j} \ln a_{j}) = - (0 + 0 + . . . + y_{k} \ln a_{k}) = - \ln a_{k} .

$C_x=-\sum\limits_{j} (y_j \ln a_j)=-(0+0+...+y_k\ln a_k)=-\ln a_k.$

C_{x} = - \ln (a_{k}) = - \ln (\frac{e^{f_{k}}}{\sum_{j} e^{f_{j}}}) .

$C_x=-\ln(a_k)=-\ln\left(\frac{e^{f_k}}{\sum_je^{f_j}}\right).$

— dontloo
источник

0

В третьей главе уравнение (63) представляет собой кросс-энтропию, применяемую к нескольким сигмоидам (которая может не равняться 1), в то время как во введении Tensoflow кросс-энтропия вычисляется на выходном слое softmax.

Как объясняет dontloo, обе формулы по существу эквивалентны для двух классов, но это не так, когда рассматриваются более двух классов. Softmax имеет смысл для мультикласса с эксклюзивными классами ( т. Е. Когда имеется только одна метка на выборку, которая допускает горячее кодирование меток), в то время как (множественные) сигмоиды могут использоваться для описания проблемы с несколькими метками (т. Е. С выборками, которые, возможно, являются положительными). для нескольких классов).

Смотрите также этот другой ответ .

— xiawi
источник