Каковы преимущества использования ReLU по сравнению с softplus в качестве функций активации?

21

Часто упоминается, что выпрямленные линейные единицы (ReLU) вытеснили единицы softplus, потому что они линейны и быстрее вычисляются.

Есть ли у softplus преимущество в том, что оно вызывает редкость или оно ограничено ReLU?

Причина, по которой я спрашиваю, заключается в том, что я задаюсь вопросом о негативных последствиях нулевого уклона ReLU. Разве это свойство не «захватывает» юниты в ноль, где может быть полезно дать им возможность реактивации?

machine-learning neural-networks

— brockl33
источник

Вы когда-нибудь узнали ответ на это?

— Чарли Паркер

4

Я нашел ответ на ваш вопрос в разделе 6.3.3 книги глубокого обучения . (Goodfellow et. Al, 2016):

Использование softplus, как правило, не рекомендуется. ... можно ожидать, что он будет иметь преимущество перед выпрямителем из-за его повсеместной дифференциации или из-за менее насыщенного насыщения, но эмпирически это не так.

В качестве ссылки, подтверждающей это утверждение, они ссылаются на документ « Нейронные сети с глубоким разреженным выпрямителем» (Glorot et al., 2011).

— Александр Щур
источник

1

Я думаю, что нам нужно больше разъяснений по поводу «но эмпирически это не так».

— nbro

2

ReLU действительно могут быть постоянно отключены, особенно при высоких скоростях обучения. Это мотивация утечек ReLU и активаций ELU, которые почти везде имеют ненулевой градиент.

Leaky ReLU - это кусочно-линейная функция, так же как и для ReLU, поэтому она быстро вычисляется. ELU имеет преимущество перед softmax и ReLU в том, что средний выходной сигнал ближе к нулю, что улучшает обучение.

— Хью Перкинс
источник

Что значит «почти везде»?

— nbro

1

«почти везде» - это технический термин, который означает что-то вроде «за исключением нескольких бесконечно малых точек». Например, негерметичный ReLU не имеет градиента, определенного при x = 0.

— Хью Перкинс