Функция кросс-энтропийной ошибки в нейронных сетях

115

В MNIST для начинающих ML они определяют кросс-энтропию как

H_{y^{'}} (y) := - \sum_{i} y_{i}^{'} \log (y_{i})

$H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i)$

$y_i$ - это прогнозируемое значение вероятности для класса $i$ а $y_i'$ - истинная вероятность для этого класса.

Вопрос 1

Разве это не проблема, что $y_i$ (в $\log(y_i)$ ) может быть 0? Это означало бы, что у нас действительно плохой классификатор, конечно. Но подумайте об ошибке в нашем наборе данных, например, об «очевидном», 1помеченном как 3. Будет ли это просто сбой? Разве выбранная нами модель (активация softmax в конце) никогда не дает вероятности 0 для правильного класса?

вопрос 2

Я узнал, что кросс-энтропия определяется как

H_{y^{'}} (y) := - \sum_{i} (y_{i}^{'} \log (y_{i}) + (1 - y_{i}^{'}) \log (1 - y_{i}))

$H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log (1-y_i)})$

Что правильно? У вас есть ссылки на учебники для любой из версий? Как эти функции различаются по своим свойствам (как функции ошибок для нейронных сетей)?

machine-learning tensorflow

— Мартин Тома
источник

Смотрите также: stats.stackexchange.com/questions/80967/…

— Петр Мигдаль

Смотрите также: Расхождение Kullback-Leibler Объясненное сообщение в блоге.

— Петр Мигдаль

101

Один из способов интерпретации кросс-энтропии состоит в том, чтобы рассматривать ее как (минус) логарифмическую вероятность для данных $y_i'$ в модели $y_i$ .

А именно, предположим, что у вас есть некоторая фиксированная модель (она же «гипотеза»), которая предсказывает для $n$ классов $\{1,2,\dots, n\}$ их гипотетические вероятности появления $y_1, y_2,\dots, y_n$ . Предположим, что теперь вы наблюдаете (в действительности) $k_1$ экземпляров класса $1$ , $k_2$ экземпляров класса $2$ , $k_n$ экземпляров класса $n$ и т. Д. Согласно вашей модели вероятность этого:

P [d a t a | m o d e l] := y_{1}^{k_{1}} y_{2}^{k_{2}} \dots y_{n}^{k_{n}} .

$P[data|model] := y_1^{k_1}y_2^{k_2}\dots y_n^{k_n}.$ Взяв логарифм и поменяв знак:

- \log P [d a t a | m o d e l] = - k_{1} \log y_{1} - k_{2} \log y_{2} - \dots - k_{n} \log y_{n} = - \sum_{i} k_{i} \log y_{i}

$-\log P[data|model] = -k_1\log y_1 -k_2\log y_2 - \dots -k_n\log y_n = -\sum_i k_i \log y_i$ Если теперь разделить правую сумму на количество наблюдений

N = k_{1} + k_{2} + \dots + k_{n}

$N = k_1+k_2+\dots+k_n$ и обозначить эмпирические вероятности так как

y_{i}^{'} = k_{i} / N

$y_i'=k_i/N$ , вы получите перекрестную энтропию:

- \frac{1}{N} \log P [d a t a | m o d e l] = - \frac{1}{N} \sum_{i} k_{i} \log y_{i} = - \sum_{i} y_{i}^{'} \log y_{i} =: H (y^{'}, y)

$-\frac{1}{N} \log P[data|model] = -\frac{1}{N}\sum_i k_i \log y_i = -\sum_i y_i'\log y_i =: H(y', y)$

Кроме того, логарифмическая вероятность набора данных для данной модели может быть интерпретирована как мера «длины кодирования» - количества битов, которые вы ожидаете потратить на кодирование этой информации, если ваша схема кодирования будет основана на вашей гипотезе.

Это следует из наблюдения, что для независимого события с вероятностью $y_i$ требуется как минимум $-\log_2 y_i$ битов для его кодирования (при условии эффективного кодирования), и, следовательно, выражение

- \sum_{i} y_{i}^{'} \log_{2} y_{i},

$-\sum_i y_i'\log_2 y_i,$ буквально является ожидаемым длина кодирования, где длины кодирования для событий вычисляются с использованием «гипотетического» распределения, в то время как ожидание принимается за фактическое.

Наконец, вместо того, чтобы говорить «мера ожидаемой длины кодирования», мне действительно нравится использовать неофициальный термин «мера неожиданности». Если вам нужно много битов для кодирования ожидаемого события из дистрибутива, дистрибутив «действительно удивителен» для вас.

Имея в виду эту интуицию, ответы на ваши вопросы можно увидеть следующим образом:

Вопрос 1 . Да. Это проблема, когда соответствующий $y_i'$ отличен от нуля одновременно . Это соответствует ситуации, когда ваша модель полагает, что некоторый класс имеет нулевую вероятность появления, и все же класс появляется в реальности. В результате «сюрприз» вашей модели бесконечно велик: ваша модель не учитывает это событие, и теперь для ее кодирования требуется бесконечно много битов. Вот почему вы получаете бесконечность как свою перекрестную энтропию.

Чтобы избежать этой проблемы, вы должны убедиться, что ваша модель не делает необдуманных предположений о невозможности чего-либо, пока это может произойти. В действительности, люди склонны использовать сигмоидные или «мягкие» функции в качестве моделей своих гипотез, которые достаточно консервативны, чтобы оставить хотя бы какой-то шанс для каждого варианта.

Если вы используете какую-то другую модель гипотезы, вы должны ее упорядочить (иначе говоря, «сгладить»), чтобы она не выдвигала гипотезы о нулях там, где это не должно быть.
Вопрос 2 . В этой формуле обычно предполагается, что $y_i'$ равен $0$ или $1$ , тогда как $y_i$ является гипотезой вероятности модели для соответствующего входа. Если вы посмотрите внимательно, вы увидите, что это просто $-\log P[data|model]$ для двоичных данных, эквивалент второго уравнения в этом ответе.

$\sum_{i} H (y_{i}^{'}, y_{i}),$ $\sum_i H(y_i', y_i),$ $y_i'$ $y_i$ $(y_i', 1-y_i')$ и $(y_i, 1-y_i)$ .

— KT.
источник

1

Можете ли вы предоставить источник, где они определяют

? Здесьони определяют его как горячую раздачу для текущей метки класса. В чем разница?

y' i = \frac{k i}{N}

$y′i=\frac{ki}{N}$

— Ленар Хойт

1

В учебнике MNIST TensorFlow они также определяют его в терминах векторов с одним прогревом.

— Ленар Хойт

N = 1

$N=1$

k_{i} / N

$k_i/N$

«независимое событие требует ... для его кодирования» - не могли бы вы объяснить этот бит, пожалуйста?

— Алекс

@ Алекс Это может потребовать более подробного объяснения для правильного понимания - ознакомьтесь с кодами Шеннона-Фано и отношением оптимального кодирования к уравнению энтропии Шеннона. Для простоты, если событие имеет вероятность 1/2, лучше всего кодировать его, используя один бит. Если вероятность составляет 1/4, вы должны потратить 2 бита для его кодирования и т. Д. В общем, если ваш набор событий имеет вероятности в форме 1/2 ^ k, вы должны задать им длины k - так ваш код будет приблизиться к оптимальной длине Шеннона.

— КТ.

22

$i$ $y_i'$

Это означает, что формула фиксирует ошибку только в целевом классе. Он отбрасывает любое понятие ошибок, которые вы можете считать «ложноположительными», и не заботится о том, как распределяются предсказанные вероятности, кроме предсказанной вероятности истинного класса.

$\sum_i y_i = 1$

Вопрос 1

$y_i$ $log(y_i)$

0 $log(y_i)$ $y_i'=0$ log( max( y_predict, 1e-15 ) )

вопрос 2

$H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log (1-y_i)})$

$i$ $i$

Если вы модифицируете такую сеть, чтобы иметь два противоположных выхода и использовали softmax плюс первое определение logloss, то вы можете видеть, что на самом деле это то же самое измерение ошибок, но складывающее метрику ошибок для двух классов в один выход.

Если существует более одного класса, для которого можно предсказать членство, и классы не являются исключительными, то есть примером может быть любой или все классы одновременно, тогда вам нужно будет использовать эту вторую формулировку. Для распознавания цифр это не так (записанная цифра должна иметь только один «истинный» класс)

— Нил Слэйтер
источник

i

$i$

\log (y_{i}) = 0

$\log(y_i) = 0$

y_{i} = 0

$y_i = 0$

\log (y_{i})

$\log(y_i)$

@NeilSlater, если классы не были взаимоисключающими, выходной вектор для каждого входа может содержать более одного 1, следует ли нам использовать вторую формулу?

— Медиа

1

@Media: Не совсем. Вы хотите посмотреть на такие вещи, как иерархическая классификация. , ,

— Нил Слэйтер

1

y_{i}^{'}

$y'_i$

y_{i}

$y_i$

y_{i}

$y_i$

11

$y_{true}$ $y_{predict}$ $y_{true}$

Первый вопрос:

Выше ответ объяснил основы вашей первой формулы, перекрестной энтропии, определенной в теории информации.

С мнением, отличным от теории информации:

Вы можете проверить, что первая формула не имеет наказания за ложную положительность (истина ложна, но ваша модель предсказывает, что она верна), а вторая - за ложную положительность. Следовательно, выбор первой формулы или второй будет влиять на ваши метрики (то есть, какую статистическую величину вы хотели бы использовать для оценки вашей модели).

В обывательском слове:

Если вы хотите, чтобы почти все хорошие люди стали вашими друзьями, но хотите, чтобы некоторые плохие люди стали вашими друзьями, используйте первую формулу для критерия.

Если вы хотите наказать себя за то, что принимаете некоторых плохих людей в качестве своего друга, но в то же время показатель принятия хороших людей может быть ниже, чем первое условие, тогда используйте вторую формулу.

Хотя, я думаю, большинство из нас критически настроены и хотели бы выбрать второй (так как многие ML-пакеты предполагают, что такое кросс-энтропия).

Второй вопрос:

- y_{t r u e} \log (y_{p r e d i c t})

$-y_{true}\log{(y_{predict})}$

\sum_{i}^{n} \sum_{k}^{K} - y_{t r u e}^{(k)} \log (y_{p r e d i c t}^{(k)})

$\sum_i^n \sum_k^K -y_{true}^{(k)}\log{(y_{predict}^{(k)})}$

Таким образом, когда есть только два класса (K = 2), у вас будет вторая формула.

— ArtificiallyIntelligence
источник

5

Эти проблемы решаются с помощью учебника по использованию softmax.

Для 1) вы правы, что softmax гарантирует ненулевой вывод, потому что он возводит в степень его вход. Для активаций, которые не дают этой гарантии (например, relu), просто добавить очень маленький положительный термин к каждому выводу, чтобы избежать этой проблемы.

Что касается 2), они, очевидно, не одинаковы, но я разработал мягкую формулировку, которую они дали, решает проблему. Если вы не используете softmax, это приведет к тому, что вы выучите огромные термины смещения, которые предполагают 1 для каждого класса для любого входа. Но поскольку они нормализуют softmax во всех классах, единственный способ максимизировать вывод правильного класса - сделать его большим по сравнению с неверными классами.

— jamesmf
источник

«Вы правы, что softmax гарантирует ненулевой выход» - я знаю, что это теоретически так. В действительности, может ли случиться так, что (из-за числовых проблем) это станет 0?

— Мартин Тома

Хороший вопрос. Я предполагаю, что для функции возведения в степень вполне возможно вывести 0.0, если ваш ввод слишком мал для точности вашего float. Однако я предполагаю, что большинство реализаций добавляют крошечный положительный член, чтобы гарантировать ненулевой ввод.

— jamesmf

0

$y_i$ $\log(y_i)$

$\log(0)$ $\log(y_i + \epsilon)$

$H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i)$
$H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log(1-y_i)})$

(a) верно для предсказания с несколькими классами (на самом деле это двойное суммирование), (b) такое же, как (a) для предсказания с двумя классами. Оба кросс-энтропии.

Пример:

$x_i$ $c_i' \in \{0, 1\}$ $c_i \in [0, 1]$

$c_i'$ $c_i$

$(c_i', c_i)=\{(0, 0.1), (0, 0.4), (0, 0.8), (1, 0.8), (1, 0.2)\}$

$y_i'$ $y_i$

$y_{ik}':=1$ $c_i'=k$ $:=0$
$y_{ik}:=p(k|x_i)$ $x_i$ $k$

$(y_i', y_i)$

$(y_i', y_i)=\{([1, 0], [0.9, 0.1]),$ $([1, 0], [0.6, 0.4]),$ $([1, 0], [0.2, 0.8]),$ $([0, 1], [0.2, 0.8]),$ $([0, 1], [0.8, 0.2])\}$

Оба (а) и (б) рассчитываются как:

$H_{y'}(y)=-1/5([log(0.9)+log(0.6) + log(0.2)]_{c_i=0} + [log(0.8) + log(0.2)]_{c_i=1}) = 0.352$

Вывод:

$1$ $K$
$(x_i, c_i')$ $c_i' = k$ $y_i'=[0,..,1,0,..]$ $k^{th}$ $y_{ik}'=1$ $y_{ik}=p(k|x_i)$ $(x_i, k)$ $-log(y_{ik})$ $y_{ik} \rightarrow 1 \Rightarrow -log(y_{ik}) \rightarrow 0$

$L(y_i', y_i) = -\sum_{k=1}^{K}y_{ik}'log(y_{ik})$

$y_{ik}' = 1$ $k' \neq k$ $0log(y_{ik'})=0$ $y_{im}'=1$

$L(y_i', y_i)=-log(y_{im})$

Окончательная формула по всем тренировочным точкам:

$H_{y'}(y)=-\sum_{(x_i, y_i')}\sum_{k=1}^{K}y_{ik}'log(y_{ik})$

$y_{i0}' = 1 - y_{i1}'$ $y_{i0} = 1 - y_{i1}$

$\begin{align*} H_{y'}(y)&=-\sum_{(x_i, y_i')}y_{i1}'log(y_{i1})+y_{i0}'log(y_{i0})\\ &=-\sum_{(x_i, y_i')}y_{i1}'log(y_{i1})+(1-y_{i1}')log(1-y_{i1}) \end{align*}$

который такой же, как (б).

Кросс-энтропия (а) над классами (одно суммирование)

Кросс-энтропия (а) над классами:

$H_{y'}(y)=-\sum_{k=1}^{K}y_{k}'log(y_{k})$

Эта версия не может быть использована для задачи классификации. Позволяет повторно использовать данные из предыдущего примера:

$(c_i', c_i)=\{(0, 0.1), (0, 0.4), (0, 0.8), (1, 0.8), (1, 0.2)\}$

$y'_0 = 3/5 = 0.6$ $y'_1 = 0.4$

$y_0 = 3/5 = 0.6$ $y_1 = 0.4$

$-y'_0logy_0 - y'_1logy_1 = - 0.6log(0.6) -0.4log(0.4) = 0.292$

$(0, 0.8)$ $(1, 0.2)$ $y'_0$ $y'_1$

$(c_i', c_i)=\{(0, 0.1), (0, 0.4), (0, \color{blue}{0.2}), (1, 0.8), (1, \color{blue}{0.8})\}$

$y'_0$ $y_0=3/5$

— Esmailian
источник