Почему ReLU лучше, чем другие функции активации

Здесь ответ относится к исчезающему и взрывному градиенту, который был sigmoidпохож на функции активации, но, я думаю, Reluимеет недостаток, и это его ожидаемое значение. нет ограничений на вывод Reluи поэтому его ожидаемое значение не равно нулю. Я помню время , прежде чем популярность , Reluчто tanhбыл самым популярным среди машинного обучения специалистов , а не sigmoid. Причина заключалась в том, что ожидаемое значение tanhбыло равно нулю, и это помогло обучению в более глубоких слоях быть более быстрым в нейронной сети. Reluне имеет этой характеристики, но почему это работает так хорошо, если мы оставим в стороне его производное преимущество. Кроме того, я думаю, что производная также может быть затронута. Поскольку активация (выходRelu) участвуют в расчете правил обновления.

— СМИ
источник

Распространено иметь некоторую нормализацию (например, пакетную нормализацию, нормализацию уровня) вместе с ReLU. Это регулирует выходной диапазон.

— ncasas

@ncasas Но в типичной CNNнормализации выходной reluэто не распространено? По крайней мере, я никогда этого не видел.

— СМИ,

Вы правы, в не очень глубоких CNN это нормально, чтобы не иметь пакетной нормализации. Рассматривали ли вы роль начальных значений веса? (например, инициализация He)

— ncasas

да, на самом деле они предназначены для того, чтобы как-то предотвратить исчезновение / взрыв градиентов, после некоторых итераций, я думаю, выходной сигнал увеличивается.

— СМИ

Самым большим преимуществом ReLu действительно является ненасыщенность градиента, что значительно ускоряет сходимость стохастического градиентного спуска по сравнению с сигмоидальными / танговыми функциями ( статья Крижевского и др.).

Но это не единственное преимущество. Здесь обсуждаются редкие эффекты активаций ReLu и индуцированной регуляризации. Другим приятным свойством является то, что по сравнению с коричневыми / сигмовидными нейронами, которые включают в себя дорогостоящие операции (экспоненты и т. Д.), ReLU может быть реализован простым пороговым значением матрицы активаций в нуле.

Но я не уверен , что большой успех современных нейронных сетей обусловлена РЕЛУ только . Новые методы инициализации, такие как инициализация Xavier, выпадение и (позже) batchnorm, также сыграли очень важную роль. Например, известный AlexNet использовал ReLu и Dropout .

Итак, чтобы ответить на ваш вопрос: ReLu обладает очень хорошими свойствами, хотя и не идеальными . Но это действительно хорошо зарекомендовало себя в сочетании с другими замечательными техниками, которые, кстати, решают проблему с ненулевым центром, о которой вы упоминали.

UPD: Выход ReLu действительно не центрирован по нулю, и это снижает производительность NN. Но эта конкретная проблема может быть решена с помощью других методов регуляризации, например, batchnorm, который нормализует сигнал перед активацией :

$x = Wu+ b$

— Максим
источник

Я должен был подчеркнуть эту часть: я пытался сказать, что только ReLu не решает эту проблему. Вы правы в том, что выход ReLu не центрирован по нулю, и это ухудшает производительность NN, если вес не регуляризован. Но насыщенные градиенты повредили NN еще больше, поэтому массовое внедрение ReLu было шагом вперед, несмотря на его недостатки.

— Максим

Не могли бы вы сказать, что вы подразумеваете под регуляризацией весов? в ответе, а также то, что вы подчеркнули.

— СМИ,

Обновил мой ответ с некоторыми подробностями об этой конкретной проблеме

— Максим

Что меня немного смущает, почему бы просто не использовать функцию идентификации? В чем преимущество 0 для отрицательных значений?

— Алекс

@ Алекс ID не является нелинейностью. Это эквивалентно наличию только линейных слоев в NN. Смотрите этот вопрос - stackoverflow.com/q/46659525/712995

— Максим