Часто упоминается, что выпрямленные линейные единицы (ReLU) вытеснили единицы softplus, потому что они линейны и быстрее вычисляются.
Есть ли у softplus преимущество в том, что оно вызывает редкость или оно ограничено ReLU?
Причина, по которой я спрашиваю, заключается в том, что я задаюсь вопросом о негативных последствиях нулевого уклона ReLU. Разве это свойство не «захватывает» юниты в ноль, где может быть полезно дать им возможность реактивации?