2
Что такое активация GELU?
Я просматривал статью BERT, в которой используется GELU (линейная единица гауссовой ошибки), в которой уравнение имеет вид что, в свою очередь, приближается кGELU(x)=xP(X≤x)=xΦ(x).GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0.5x(1+tanh[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)]) Не могли бы вы упростить уравнение и объяснить, как оно было аппроксимировано.