Ответы:
Ты в основном прав! У ReLU есть проблема с исчезновением градиента, но только с одной стороны, поэтому мы называем это как-то иначе: «проблема умирающего ReLU». Посмотрите этот ответ переполнения стека для получения дополнительной информации: Какова проблема «умирающего ReLU» в нейронных сетях?
Это небольшая семантическая разница. Многие функции (tanh и logistic / sigmoid) имеют производные, очень близкие к нулю, когда вы выходите за пределы стандартного рабочего диапазона. Это проблема исчезающего градиента. Чем хуже вы становитесь, тем труднее вернуться в хорошую зону. ReLU не ухудшается, когда вы находитесь в положительном направлении, так что нет проблемы исчезновения градиента (с этой стороны). Этой асимметрии может быть достаточно, чтобы оправдать называть это чем-то другим, но идеи очень похожи.
Исчезновение означает, что оно идет к 0, но на самом деле никогда не будет 0. Наличие градиентов 0 делает очень легкими вычисления, а наличие градиентов, близких к 0, означает, что есть изменения, только очень крошечные, которые означают медленное обучение и численные проблемы. 1 и 0 - два самых простых числа, которые можно вычислить в задачах оптимизации такого рода.