Машинное обучение: должен ли я использовать категориальную кросс-энтропию или двоичную кросс-энтропийную потерю для бинарных предсказаний?

36

Прежде всего, я понял, что если мне нужно выполнить двоичные предсказания, я должен создать как минимум два класса, выполняя горячее кодирование. Это верно? Однако является ли двоичная кросс-энтропия только для предсказаний только с одним классом? Если бы я использовал категориальную кросс-энтропийную потерю, которая обычно встречается в большинстве библиотек (например, TensorFlow), будет ли существенная разница?

На самом деле, каковы точные различия между категориальной и бинарной кросс-энтропией? Я никогда не видел реализации двоичной кросс-энтропии в TensorFlow, поэтому я подумал, что, возможно, категориальная работает так же хорошо.

— infomin101
источник

1

Пример бинарной классификации: machinelearningmastery.com/… и мультиклассовой классификации: machinelearningmastery.com/…

— user1367204

@ user1367204: ссылка на мультиклассовую классификацию перенаправляет на двоичную классификацию. Это должен быть этот .

— user3389669

51

Биноминальная кросс-энтропийная потеря является частным случаем полиномиальной кросс-энтропийной потери при . $m=2$

\begin{aligned} L (θ) & знак равно - \frac{1}{N} Σ_{я знак равно 1}^{N} [Y_{я} журнал (п_{я}) + (1 - Y_{я}) журнал (1 - п_{я})] \\ знак равно - \frac{1}{N} Σ_{я знак равно 1}^{N} Σ_{J знак равно 1}^{м} Y_{я J} журнал (п_{я J}) \end{aligned}

$\begin{align} \mathcal{L}(\theta) &= -\frac{1}{n}\sum_{i=1}^n \left[y_i \log(p_i) + (1-y_i) \log(1-p_i)\right] \\ &= -\frac{1}{n}\sum_{i=1}^n\sum_{j=1}^m y_{ij} \log(p_{ij}) \end{align}$

Где индексирует выборки / наблюдения и индексирует классы, а - метка выборки (двоичная для LSH, горячий вектор на RHS) и - прогноз для выборки. $i$ $j$ $y$ $p_{ij}\in(0,1):\sum_{j} p_{ij} =1\forall i,j$

— Sycorax говорит восстановить Монику
источник

3

Означает ли это сказать, что пока я использую 2 класса в полиномиальной кросс-энтропийной потере, я по сути использую бинарную кросс-энтропийную потерю?

— infomin101

2

@leekwotsin да

— Sycorax говорит восстановить Монику

17

Двоичная кросс-энтропия предназначена для классификации по нескольким меткам, тогда как категориальная кросс-энтропия предназначена для классификации по нескольким классам, где каждый пример принадлежит одному классу.

— Хенок С Менгисту
источник

3

Чем обосновано ваше утверждение? Почему бы вам не использовать категориальную перекрестную энтропию для классификации по нескольким меткам?

— Михал

Что делать, если существует несколько меток, каждая из которых содержит несколько классов?

— Slizb

1

Это именно то, что я хотел услышать, но не то, что хочет услышать мой босс. Немного объяснения было бы так здорово.

— Адитья

2

Я думаю, что есть три вида задач классификации:

Бинарная классификация: два эксклюзивных класса
Мультиклассовая классификация: более двух эксклюзивных классов
Мультимарочная классификация: просто неисключительные классы

Из них можно сказать

В случае (1) вам необходимо использовать двоичную перекрестную энтропию.
В случае (2) вам необходимо использовать категориальную кросс-энтропию.
В случае (3) вам нужно использовать двоичную перекрестную энтропию. Вы можете просто рассмотреть классификатор с несколькими метками как отдельный отдельный двоичный классификатор. Если у вас есть 10 классов здесь, у вас есть 10 двоичных классификаторов отдельно. Каждый двоичный классификатор обучается независимо. Таким образом, мы можем изготовить мульти-этикетки для каждого образца. Если вы хотите убедиться, что должна быть получена хотя бы одна метка, вы можете выбрать ту, которая имеет наименьшую классификационную потерю, или использовать другие метрики.

Я хочу подчеркнуть, что мультиклассовая классификация не похожа на мультибликовую классификацию ! Скорее, мультибликовый классификатор заимствует идею из двоичного классификатора!

— jeongmin.cha
источник