Означает ли пакетная нормализация, что сигмоиды работают лучше, чем ReLU?

9

Пакетная нормализация и ReLU являются решениями проблемы исчезающего градиента. Если мы используем пакетную нормализацию, должны ли мы тогда использовать сигмоиды? Или есть функции ReLU, которые делают их полезными даже при использовании batchnorm?

Я предполагаю, что нормализация, выполненная в batchnorm, отправит ноль активаций отрицательно. Означает ли это, что batchnorm решает проблему «мертвого ReLU»?

Но непрерывный характер тан и логистики остаются привлекательными. Если я использую batchnorm, будет ли tanh работать лучше, чем ReLU?

Я уверен, что ответ зависит . Итак, что сработало в вашем опыте, и каковы основные характеристики вашего приложения?

deep-learning batch-normalization

— generic_user
источник

Даже если в статье предлагается использовать BatchNorm перед активацией, на практике было обнаружено, что лучшие решения дают выход, если BN применяется после. Если я не упускаю из виду то, что должно означать, что в последнем случае BN не влияет на активацию. Но, конечно, остается открытым вопрос, будет ли BN работать лучше, когда применяется раньше и с другой активацией, чем ReLU. На мой взгляд, нет. Потому что у ReLU есть и другие преимущества, такие как более простое деривация. Но мне тоже любопытно. Может быть, кто-то сделал опыт в этой области.

— oezguensi

1

Видите, основная концепция нормализации партии такова (выдержка из статьи Medium) -

Мы нормализуем наш входной слой, регулируя и масштабируя активации. Например, когда у нас есть функции от 0 до 1 и некоторые от 1 до 1000, мы должны нормализовать их, чтобы ускорить обучение. Если входной слой извлекает из этого пользу, почему бы не сделать то же самое для значений в скрытых слоях, которые все время меняются, и получить скорость обучения в 10 или более раз.

Прочитайте статью здесь.

$frac{1}/{(1+1/e)}$

— безумец
источник

0

Сумасшедший ответил на ваш вопрос, касающийся нормализации партии, и позвольте мне ответить на вашу вторую часть: как непрерывные функции могут показаться привлекательными, но relu лучше, чем все они, и это утверждение не с моей стороны, MR. Хинтон процитировал это: «Мы были тупыми людьми, которые использовали сигмоид в качестве функции активации, и потребовалось 30 лет, чтобы это осознание произошло, что, не понимая его формы, он никогда не позволит вашему нейрону перейти в состояние обучения, он всегда насыщает, так как он является производным и он назвал себя и всех остальных ошеломленных людей ". Так что выбирайте функцию активации просто потому, что она непрерывна и не смотрит, как она повлияет на ваш нейрон"

Примечание: если вы изучаете нейронные сети, я бы посоветовал вам рассматривать нейронные сети как большие и глубокие составные функции, чтобы понять, что работает и почему это работает, вам нужно понять, как нейронная сеть создает множество данных в некотором более высоком измерении, представляющем «те данные, в которых качество коллектора зависит от вашего выбора функций и того, как функция преобразует выходные данные других функций, когда они передаются ей в качестве входных данных.

— хваджа висал
источник