Пакетная нормализация и ReLU являются решениями проблемы исчезающего градиента. Если мы используем пакетную нормализацию, должны ли мы тогда использовать сигмоиды? Или есть функции ReLU, которые делают их полезными даже при использовании batchnorm?
Я предполагаю, что нормализация, выполненная в batchnorm, отправит ноль активаций отрицательно. Означает ли это, что batchnorm решает проблему «мертвого ReLU»?
Но непрерывный характер тан и логистики остаются привлекательными. Если я использую batchnorm, будет ли tanh работать лучше, чем ReLU?
Я уверен, что ответ зависит . Итак, что сработало в вашем опыте, и каковы основные характеристики вашего приложения?