Итак, в настоящее время наиболее часто используемые функции активации - это Re-Lu. Поэтому я ответил на этот вопрос. Какова цель функции активации в нейронных сетях? и когда я писал ответ, меня поразило, как именно может приблизительная нелинейная функция Ре-Лу?
Конечно, по чисто математическому определению это нелинейная функция из-за резкого изгиба, но если мы ограничимся только положительной или отрицательной частью только оси X, то она линейна в этих областях. Допустим, мы берем также всю ось X, а затем ее своего рода линейную (не в строгом математическом смысле) в том смысле, что она не может удовлетворительно аппроксимировать извилистые функции, такие как синусоида ( 0 --> 90
) с одним скрытым слоем узла, как это возможно с помощью сигмоиды. функция активации.
Так какова интуиция, лежащая в основе того факта, что Re-Lu используются в NN, обеспечивая удовлетворительную производительность (я не спрашиваю цель Re-lu), даже если они являются линейными? Или иногда нелинейные функции, такие как сигмоид и тан, выбрасываются в середине сети?
РЕДАКТИРОВАТЬ: Согласно комментарию @ Eka Re-Lu получает свои возможности от разрыва, действующего в глубоких слоях нейронной сети. Означает ли это, что Re-Lu хороши, если мы используем их в Deep NN, а не в неглубоком NN?
max(0,x)
действия в глубоких слоях нейронной сети. Существует исследование openai, в котором они вычислили нелинейные функции с использованием глубоких линейных сетей, вот ссылка на blog.openai.com/nonlinear-computation-in-linear-networks