Каковы преимущества ReLU по сравнению с Leaky ReLU и Parametric ReLU (если есть)?

Я думаю, что преимущество использования Leaky ReLU вместо ReLU состоит в том, что таким образом у нас не может быть исчезающего градиента. Параметрический ReLU имеет то же преимущество, с той лишь разницей, что наклон вывода для отрицательных входов является обучаемым параметром, в то время как в Leaky ReLU это гиперпараметр.

Однако я не могу сказать, есть ли случаи, когда удобнее использовать ReLU вместо Leaky ReLU или Parametric ReLU.

neural-networks activation-function relu

— gvgramazio
источник

Сочетание ReLU, гиперпараметризованного варианта ^{1 с} утечкой и варианта с динамической параметризацией во время обучения смешивает две разные вещи:

Сравнение между ReLU и вариантом с утечкой тесно связано с тем, существует ли необходимость в конкретном случае ML избежать насыщения. Насыщенность - это потеря сигнала либо с нулевым градиентом ^2, либо преобладание хаотического шума, возникающего в результате цифрового округление ³ .
Сравнение между тренировочно-динамической активацией ( в литературе называется параметрической ) и тренировочно-статической активацией должно основываться на том, имеют ли нелинейные или негладкие характеристики активации какое-либо значение, связанное со скоростью сходимости ⁴ .

Причина, по которой ReLU никогда не является параметрической, заключается в том, что его создание будет избыточным. В отрицательной области это постоянный ноль. В неотрицательной области его производная постоянна. Поскольку входной вектор активации уже ослаблен с помощью произведения векторной матрицы (где матрица, куб или гиперкуб содержит параметры ослабления), нет никакой полезной цели в добавлении параметра для изменения постоянной производной для неотрицательной области ,

Когда в активации есть кривизна, больше не верно, что все коэффициенты активации являются избыточными в качестве параметров. Их значения могут значительно изменить процесс обучения и, следовательно, скорость и надежность конвергенции.

Для существенно глубоких сетей возникает избыточность, и в литературе есть доказательства этого как в теории, так и на практике.

В алгебраических терминах несоответствие между ReLU и параметрически динамическими активациями, полученными из него, приближается к нулю, когда глубина (в количестве слоев) приближается к бесконечности.
В описательных терминах ReLU может точно аппроксимировать функции с кривизной ^5, если для этого имеется достаточное количество слоев.

Вот почему разнообразие ELU, которое выгодно для предотвращения проблем насыщения, упомянутых выше для более мелких сетей, не используется для более глубоких сетей.

Поэтому нужно решить две вещи.

Полезность параметрической активации часто основана на экспериментах с несколькими выборками из статистической популяции. Но нет необходимости экспериментировать с ним, если глубина слоя велика.
То, имеет ли утечка вариант, имеет большое значение для числовых диапазонов, встречающихся при обратном распространении. Если градиент становится исчезающе малым во время обратного распространения в любой точке во время тренировки, постоянная часть кривой активации может быть проблематичной. В таком случае одна из плавных функций или негерметичный RelU с двумя ненулевыми склонами может обеспечить адекватное решение.

Таким образом, выбор никогда не является выбором удобства.

Сноски

[1] Гиперпараметры - это параметры, которые влияют на сигнализацию через уровень, которые не являются частью ослабления входов для этого уровня. Веса затухания являются параметрами. Любая другая параметризация находится во множестве гиперпараметров. Это может включать в себя скорость обучения, подавление высоких частот при обратном распространении и множество других элементов управления обучением, которые установлены для всего слоя, если не для всей сети.

[2] Если градиент равен нулю, то не может быть разумной регулировки параметров, поскольку направление регулировки неизвестно, а его величина должна быть равна нулю. Обучение останавливается.

[3] Если хаотический шум, который может возникнуть, когда ЦП округляет чрезвычайно малые значения до ближайшего цифрового представления, доминирует над сигналом коррекции, который предназначен для распространения обратно к слоям, тогда коррекция становится бессмысленной, и обучение прекращается.

[4] Скорость сходимости - это мера скорости (относительно микросекунд или относительно индекса итерации алгоритма), в которой результат обучения (поведение системы) приближается к тому, что считается достаточно хорошим. Обычно это определенная близость к некоторым формальным критериям приемлемости для конвергенции (обучения).

[5] Функции с кривизной - это функции, которые не визуализируются как прямые или плоские. Парабола имеет кривизну. Прямой линии нет. Поверхность яйца имеет кривизну. Идеальной плоской плоскости нет. Математически, если какой-либо из элементов гессиана функции не равен нулю, функция имеет кривизну.

— FauChristian
источник

Что вы подразумеваете под выбором - это не выбор удобства ?

— gvgramazio

@gvgramazio, Вы написали «удобнее использовать ReLU» в своем вопросе. Я указывал, что удобство не является основой, на которой сделан выбор. Возможно, это звучит слишком резко? Я не собирался быть. Предложения выше этого предложения в моем ответе были предназначены для предоставления более полезных критериев, на которых вы могли бы основывать свое решение при выборе функций активации.

— FauChristian

Не беспокойтесь о том, чтобы быть слишком резким, для меня это не проблема. Я думаю, что это больше проблема языка (я не являюсь носителем английского языка).

— gvgramazio

Дело в том, что из того, что я понял, вы хорошо объясняете, в каком случае я бы предпочел один вариант по сравнению с другим. Что я до сих пор не понимаю, так это когда мне следует предпочесть классический. Например, вариант с утечкой может обеспечить адекватное решение исчезающего градиента, но если у него нет недостатка, я всегда могу выбрать вариант с утечкой в отношении ReLU.

— gvgramazio

@FauChristian Не могли бы вы добавить еще несколько разговорных терминов и интуиции, я не очень знаком с математическим языком :)

— DuttaA