Прежде всего, я понял, что если мне нужно выполнить двоичные предсказания, я должен создать как минимум два класса, выполняя горячее кодирование. Это верно? Однако является ли двоичная кросс-энтропия только для предсказаний только с одним классом? Если бы я использовал категориальную кросс-энтропийную потерю, которая обычно встречается в большинстве библиотек (например, TensorFlow), будет ли существенная разница?
На самом деле, каковы точные различия между категориальной и бинарной кросс-энтропией? Я никогда не видел реализации двоичной кросс-энтропии в TensorFlow, поэтому я подумал, что, возможно, категориальная работает так же хорошо.