Я заметил, что Caffe (структура глубокого обучения) использовала Softmax Loss Layer в SoftmaxWithLoss
качестве выходного слоя для большинства образцов модели .
Насколько я знаю, слой Softmax Loss представляет собой комбинацию Multinomial Logistic Loss Layer и Softmax Layer .
От Кафе они сказали, что
Расчет градиента слоя потерь Softmax более численно стабилен
Тем не менее, это объяснение - не тот ответ, который мне нужен, а объяснение - просто сравнить комбинацию слоя Multinomial Logistic Loss Layer и Softmax Loss вместо слоя за слоем. Но не сравнить с другим типом функции потери.
Тем не менее, я хотел бы узнать больше, в чем заключаются различия / преимущества / недостатки этих 3-х ошибочных функций, таких как Мультивыносимая Логистическая Потеря , Кросс-Энтропия (CE) и Квадратная Ошибка (SE) с точки зрения контролируемого обучения? Любые поддерживающие статьи?
y-t
. willamette.edu/~gorr/classes/cs449/classify.html