В общем, когда у вас есть проблема, когда образец может принадлежать только одному классу из набора классов, вы устанавливаете последний слой как слой софт-макс. Это позволяет интерпретировать результаты как вероятности. При использовании слоя soft-max кросс-энтропия, как правило, работает очень хорошо, потому что логарифмический термин в кросс-энтропии отменяет плато, присутствующее в функции soft-max, и, следовательно, ускоряет процесс обучения (думайте о точках далеко от в сигмовидной функции).0
В вашем случае у вас есть задача двоичной классификации, поэтому ваш выходной слой может быть стандартным сигмоидом (где выходные данные представляют собой вероятность того, что тестовый образец является лицом). Потеря, которую вы бы использовали, была бы бинарной кросс-энтропией. С помощью этой настройки вы можете представить себе логистическую регрессию на последнем слое вашей глубокой нейронной сети.
Вот пара ссылок для вас. Надеюсь, они помогут.
https://en.wikipedia.org/wiki/Cross_entropy#Cross-entropy_error_function_and_logistic_regression
http://neuralnetworksanddeeplearning.com/chap3.html
https://www.quora.com/How-do-you-decide-which-loss- функция в использовании-для-машинного обучения
sigmoid
(как активация последнего слоя). Спасибо