Почему функции активации должны быть монотонными?

В настоящее время я готовлюсь к экзамену по нейронным сетям. В нескольких протоколах предыдущих экзаменов я читал, что функции активации нейронов (в многослойных персептронах) должны быть монотонными.

Я понимаю, что функции активации должны быть дифференцируемыми, иметь производную, которая не равна 0 в большинстве точек, и быть нелинейной. Я не понимаю, почему быть монотонным важно / полезно.

Мне известны следующие функции активации и что они монотонные:

РЕЛУ
сигмоид
Tanh
Softmax: я не уверен, применимо ли определение монотонности для функций $f: \mathbb{R}^n \rightarrow \mathbb{R}^m$ с $n, m > 1$
Softplus
(Идентичность)

Тем не менее, я до сих пор не вижу причин, почему, например, . $\varphi(x) = x^2$

Почему функции активации должны быть монотонными?

(Смежный вопрос: есть ли причина, по которой логарифмическая / экспоненциальная функция не используется в качестве функции активации?)

machine-learning neural-network

— Мартин Тома
источник

К вашему сведению: полный список функций активации в нейронных сетях с плюсами / минусами

— Франк Дернонкур

@MartinThoma Вы уверены, что softmax является монотонным?

— СМИ

Спасибо @Media. Чтобы ответить на ваш вопрос: я не уверен, что "монотонный" означает даже для функций в

. Для

softmax является постоянным и, следовательно, монотонным. Но без определения

для элементов в

я не думаю, что монотонность имеет какой-либо смысл.

f : R^{n} \to R^{m}

$f:R^n \rightarrow R^m$

m > 1

$m > 1$

m = 1

$m=1$

<

$<$

R^{n}

$R^n$

n > 1

$n>1$

— Мартин Тома

@MartinThoma Спасибо, на самом деле это был и мой вопрос. Я не знал и до сих пор не знаю, есть ли расширение для монотонных функций с несколькими выходами. Вы знаете, математические вещи!

— Медиа

Ответы:

Критерий монотонности помогает нейронной сети легче сходиться в более точный классификатор. Посмотрите этот ответ stackexchange и статью в Википедии для более подробной информации и причин.

Однако критерий монотонности не является обязательным для функции активации - также можно обучать нейронные сети с немонотонными функциями активации. Оптимизировать нейронную сеть становится все труднее. Смотрите ответ Йошуа Бенжио .

— Дэвид Дао
источник

-1

Я приведу более математическую причину того, почему помогает наличие монотонной функции!

Используя http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differentiability-of-monotone-fun , предполагая, что наша функция активации является монотонной, мы можем сказать, что на реальной линии наша функция будет дифференцируема. Таким образом, градиент функции активации не будет ошибочной функцией. Будет проще найти минимумы, которые мы ищем. (вычислительно недорогой)

Экспоненциальные и логарифмические функции являются красивыми функциями, но они не ограничены (поэтому обратное утверждение теоремы Лебега неверно, поскольку Exp и Log являются дифференцируемыми функциями, которые не ограничены на действительной прямой). Таким образом, они терпят неудачу, когда мы хотим классифицировать наши примеры на заключительном этапе. Sigmoid и tanh работают очень хорошо, потому что у них есть градиенты, которые легко вычислить, и их диапазон составляет (0,1) и (-1,1) соответственно.

— Рохит Рават
источник

Существует бесконечно много дифференцируемых, но не монотонных функций. Так почему помогает монотонная функция?

— Мартин Тома