В настоящее время я готовлюсь к экзамену по нейронным сетям. В нескольких протоколах предыдущих экзаменов я читал, что функции активации нейронов (в многослойных персептронах) должны быть монотонными.
Я понимаю, что функции активации должны быть дифференцируемыми, иметь производную, которая не равна 0 в большинстве точек, и быть нелинейной. Я не понимаю, почему быть монотонным важно / полезно.
Мне известны следующие функции активации и что они монотонные:
- РЕЛУ
- сигмоид
- Tanh
- Softmax: я не уверен, применимо ли определение монотонности для функций с
- Softplus
- (Идентичность)
Тем не менее, я до сих пор не вижу причин, почему, например, .
Почему функции активации должны быть монотонными?
(Смежный вопрос: есть ли причина, по которой логарифмическая / экспоненциальная функция не используется в качестве функции активации?)