Функция ReLU имеет видОбычно это применяется поэлементно к выводу некоторой другой функции, такой как произведение матрицы на вектор. При использовании MLP выпрямительные модули заменяют все другие функции активации, кроме, возможно, уровня считывания. Но я полагаю, вы могли бы смешивать и сочетать их, если хотите.f(x)=max(0,x).
Один из способов улучшить работу нейронных сетей за счет ускорения обучения. Расчет градиента очень прост (0 или 1 в зависимости от знака x ). Кроме того, вычислительный шаг ReLU прост: любые отрицательные элементы устанавливаются в 0.0 - без экспонент, без операций умножения или деления.
Градиенты логистических и гиперболических касательных сетей меньше, чем положительная часть ReLU. Это означает, что положительная часть обновляется быстрее в процессе обучения. Однако это обходится дорого. Градиент 0 в левой части имеет свою собственную проблему, называемую «мертвыми нейронами», в которой обновление градиента устанавливает входящие значения в ReLU так, что выход всегда равен нулю; Модифицированные блоки ReLU, такие как ELU (или Leaky ReLU, или PReLU и т. д.), могут улучшить это.
ddxReLU(x)=1∀x>0 . Напротив, градиент сигмовидной единицы составляет не более ; с другой стороны, лучше для входных данных в области около 0, поскольку (приблизительно).0.25tanh0.25<ddxtanh(x)≤1∀x∈[−1.31,1.31]