Вопросы с тегом «activation-function»

2
Почему ReLU используется в качестве функции активации?
Функции активации используются для введения нелинейностей в линейный вывод типа w * x + bв нейронной сети. Что я могу понять интуитивно для функций активации, таких как сигмоидальные. Я понимаю преимущества ReLU, который избегает мертвых нейронов во время обратного распространения. Однако я не могу понять, почему ReLU используется в качестве …

2
Что такое активация GELU?
Я просматривал статью BERT, в которой используется GELU (линейная единица гауссовой ошибки), в которой уравнение имеет вид что, в свою очередь, приближается кGELU(x)=xP(X≤x)=xΦ(x).GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0.5x(1+tanh[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)]) Не могли бы вы упростить уравнение и объяснить, как оно было аппроксимировано.

1
Почему ReLU лучше, чем другие функции активации
Здесь ответ относится к исчезающему и взрывному градиенту, который был sigmoidпохож на функции активации, но, я думаю, Reluимеет недостаток, и это его ожидаемое значение. нет ограничений на вывод Reluи поэтому его ожидаемое значение не равно нулю. Я помню время , прежде чем популярность , Reluчто tanhбыл самым популярным среди машинного …

1
Различие функций активации в нейронных сетях в целом
Я изучил типы функций активации для нейронных сетей. Сами функции довольно просты, но различие в применении не совсем понятно. Разумно различать логические и линейные функции, в зависимости от желаемого двоичного / непрерывного вывода, но в чем преимущество сигмоидальной функции перед простой линейной? Например, ReLU особенно трудно понять для меня: какой …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.