В математике функция считается линейной всякий раз, когда функция если для каждых x и y в области A, имеет следующее свойство: f ( x ) + f ( y ) = f ( x + y ) . По определению ReLU - это m a x ( 0 , x ) . Следовательно, если мы разделим область от ( - ∞ , 0 ] или [е: A → BИксYAе( х ) + ф( у) = f( х + у)м х ( 0 , х )( - ∞ , 0 ] то функция линейна. Однако легко увидеть, что f ( - 1 ) + f ( 1 ) ≠ f ( 0 ) . Следовательно, по определению ReLU не является линейным. [ 0 , ∞ )е( - 1 ) + f( 1 ) ≠ f( 0 )
Тем не менее, ReLU настолько близок к линейному, что часто смущает людей и задается вопросом, как его можно использовать в качестве универсального аппроксиматора. По моему опыту, лучший способ думать о них, как суммы Римана. Вы можете аппроксимировать любые непрерывные функции множеством маленьких прямоугольников. Активации ReLU могут привести к появлению множества маленьких прямоугольников. Фактически, на практике ReLU может создавать довольно сложные формы и приближать многие сложные области.
Мне также хочется прояснить еще один момент. Как указывалось в предыдущем ответе, нейроны не умирают в сигмоиде, а исчезают. Причина этого заключается в том, что максимальная производная сигмоидальной функции равна .25. Следовательно, после стольких слоев вы умножаете эти градиенты, и произведение очень маленьких чисел, меньших 1, имеет тенденцию очень быстро стремиться к нулю.
Следовательно, если вы строите глубокую обучающую сеть с большим количеством слоев, ваши сигмовидные функции, по существу, будут довольно быстро застаиваться и станут более или менее бесполезными.
Ключевым моментом является то, что исчезновение происходит от умножения градиентов, а не самих градиентов.