4
Как прямолинейная функция активации решает проблему исчезающего градиента в нейронных сетях?
Я нашел выпрямленную линейную единицу (ReLU), восхваляемую в нескольких местах как решение проблемы исчезающего градиента для нейронных сетей. То есть, в качестве функции активации используется max (0, x). Когда активация положительна, очевидно, что это лучше, чем, скажем, функция активации сигмоида, поскольку ее вывод всегда равен 1, а не сколь угодно …