Что означает термин насыщающие нелинейности?

Я читал статью Классификация ImageNet с глубокими сверточными нейронными сетями, и в разделе 3 они объясняли архитектуру своей сверточной нейронной сети и объясняли, как они предпочитают использовать:

ненасыщенная нелинейность $f(x) = max(0, x).$

потому что это было быстрее тренироваться. В этой статье они, по-видимому, ссылаются на насыщающие нелинейности как на более традиционные функции, используемые в CNN, сигмоидальной и гиперболической касательной функциях (то есть $f(x) = tanh(x)$ и $f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1}$ как насыщающий).

Почему они называют эти функции «насыщающими» или «ненасыщенными»? В каком смысле эти функции являются «насыщающими» или «ненасыщенными»? Что означают эти термины в контексте сверточных нейронных сетей? Используются ли они в других областях машинного обучения (и статистики)?

— Чарли Паркер
источник

Я также нашел этот ответ очень полезным.

— откровенно

Ответы:

Интуиция

Насыщающая функция активации сжимает вход.

Определения

$f$ $(|\lim_{z\to-\infty} f(z)| = +\infty) \vee (|\lim_{z\to+\infty} f(z)| = +\infty)$
$f$ насыщает, если не ненасыщен. $f$

Эти определения не являются специфическими для сверточных нейронных сетей.

Примеры

Функция активации выпрямленной линейной единицы (ReLU), которая определяется как является насыщающей, потому что : $f(x)=max(0,x)$ $\lim_{z\to+\infty} f(z) = +\infty$

Функция активации сигмовидной кишки, которая определяется как , насыщает, потому что она сдавливает действительные числа в диапазоне между : $f(x) = \frac{1}{1 + e^{-x}}$ $[0,1]$

Функция активации tanh (гиперболический тангенс) насыщает, поскольку она сдавливает действительные числа в диапазоне от : $[-1,1]$

(цифры из CS231n , лицензия MIT)

— Франк Дернонкур
источник

ах, приятно имеет смысл! Я знаю, что это не был мой первоначальный вопрос, но что это свойство важно в контексте ML и CNN?

— Чарли Паркер,

Для ANN следует избегать наличия одного блока с большим выходом, который слишком сильно влияет на выходной уровень ANN.

— Франк Дернонкур

Какая разница между загаром и сигмоидом? они оба раздавили числа в закрытом диапазоне! Я не понимаю, можете ли вы разработать этот абит больше? Я немного плохо в математике. (кстати, я иду с точки зрения CNN)

— Рика

@FranckDernoncourt Вы имели в виду насыщение для функции активации Тан? Я думаю, что есть опечатка? :)

— CoderSpinoza

@tenCupMaximum: насыщать означает заполнить до точки, где больше не может быть добавлено. В контексте насыщающей функции это означает, что после определенной точки любое дальнейшее увеличение входа функции больше не приведет к (значительному) увеличению ее выхода, которое (почти) достигло своего максимального значения. Функция в этот момент «полностью заполнена», так сказать (или насыщена ).

— Рубен ван Берген

Наиболее распространенными функциями активации являются LOG и TanH. Эти функции имеют компактный диапазон, что означает, что они сжимают нейронный отклик в ограниченное подмножество действительных чисел. LOG сжимает входы до выходов между 0 и 1, TAN H между -1 и 1. Эти функции отображают ограничивающее поведение на границах.

На границе градиент выхода относительно входа ∂yj / ∂xj очень мал. Таким образом, градиент маленький, следовательно, небольшие шаги к конвергенции, следовательно, больше времени, чтобы сходиться.

— Pradi KL
источник