Здесь ответ относится к исчезающему и взрывному градиенту, который был sigmoidпохож на функции активации, но, я думаю, Reluимеет недостаток, и это его ожидаемое значение. нет ограничений на вывод Reluи поэтому его ожидаемое значение не равно нулю. Я помню время , прежде чем популярность , Reluчто tanhбыл самым популярным среди машинного обучения специалистов , а не sigmoid. Причина заключалась в том, что ожидаемое значение tanhбыло равно нулю, и это помогло обучению в более глубоких слоях быть более быстрым в нейронной сети. Reluне имеет этой характеристики, но почему это работает так хорошо, если мы оставим в стороне его производное преимущество. Кроме того, я думаю, что производная также может быть затронута. Поскольку активация (выходRelu) участвуют в расчете правил обновления.
CNNнормализации выходной reluэто не распространено? По крайней мере, я никогда этого не видел.