Здесь ответ относится к исчезающему и взрывному градиенту, который был sigmoid
похож на функции активации, но, я думаю, Relu
имеет недостаток, и это его ожидаемое значение. нет ограничений на вывод Relu
и поэтому его ожидаемое значение не равно нулю. Я помню время , прежде чем популярность , Relu
что tanh
был самым популярным среди машинного обучения специалистов , а не sigmoid
. Причина заключалась в том, что ожидаемое значение tanh
было равно нулю, и это помогло обучению в более глубоких слоях быть более быстрым в нейронной сети. Relu
не имеет этой характеристики, но почему это работает так хорошо, если мы оставим в стороне его производное преимущество. Кроме того, я думаю, что производная также может быть затронута. Поскольку активация (выходRelu
) участвуют в расчете правил обновления.
CNN
нормализации выходной relu
это не распространено? По крайней мере, я никогда этого не видел.