Кросс-энтропия или логарифмическая вероятность в выходном слое


31

Я читаю эту страницу: http://neuralnetworksanddeeplearning.com/chap3.html

и это сказало, что сигмоидальный выходной слой с кросс-энтропией весьма похож на выходной слой softmax с логарифмической вероятностью.

что произойдет, если я использую сигмоид с логарифмической вероятностью или softmax с перекрестной энтропией в выходном слое? это нормально? потому что я вижу, что есть только небольшая разница в уравнении между кросс-энтропией (уравнение 57):

C=1nx(ylna+(1y)ln(1a))

и логарифмическая вероятность (уравнение 80):

C=1nx(lnayL)

Ответы:


51

Отрицательное логарифмическое правдоподобие (например, 80) также известно как мульти-классовая кросс-энтропия (см .: Распознавание образов и машинное обучение, раздел 4.3.4), поскольку на самом деле это две разные интерпретации одной и той же формулы.

уравнение 57 - отрицательная логарифмическая вероятность распределения Бернулли, тогда как уравнение 80 - отрицательная логарифмическая вероятность многочленного распределения с одним наблюдением (мультиклассовая версия Бернулли).

Для задач двоичной классификации функция softmax выдает два значения (от 0 до 1 и от суммы до 1), чтобы дать прогноз каждого класса. В то время как сигмоидная функция выводит одно значение (от 0 до 1), чтобы дать прогноз одного класса (так что другой класс равен 1-p).

Таким образом, уравнение 80 не может быть непосредственно применено к выходу сигмоида, хотя это, по сути, те же потери, что и уравнение 57.

Также посмотрите этот ответ .


Ниже приводится простая иллюстрация связи между (сигмоид + двоичная кросс-энтропия) и (softmax + мультиклассовая кросс-энтропия) для задач двоичной классификации.

Скажем, мы берем в качестве точки разделения двух категорий, для сигмоидального вывода следует,0.5

σ(wx+b)=0.5
wx+b=0
что является границей решения в пространстве признаков.

Для вывода softmax следует поэтому она остается той же моделью, хотя параметров в два раза больше.

ew1x+b1ew1x+b1+ew2x+b2=0.5
ew1x+b1=ew2x+b2
w1x+b1=w2x+b2
(w1w2)x+(b1b2)=0

Ниже приведены границы решения, полученные с использованием этих двух методов, которые практически идентичны.


Какие уравнения вы имеете в виду? В книге уравнения нумеруются по-разному. Может быть, это конкретное издание книги? Вы можете уточнить это? Я смотрю на книгу по адресу users.isr.ist.utl.pt/~wurmd/Livros/school/…. , Стр. 209 (раздел 4.3.4).
nbro

@nbro извините за путаницу, я имел в виду уравнения на связанной странице, приведенной в вопросе.
не
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.