tanh против сигмовидной в нейронной сети

16

Я заранее прошу прощения за то, что до сих пор не тороплюсь с этим. Я пытаюсь понять плюсы и минусы использования tanh (карта от -1 до 1) против сигмовидной (карта от 0 до 1) для моей функции активации нейронов. Из моего чтения это звучало как незначительная вещь с незначительными различиями. На практике для моих проблем я обнаружил, что сигмовидную кишку легче тренировать, и, как ни странно, сигмовидная кишка, кажется, находит общее решение лучше. Под этим я подразумеваю, что, когда сигмовидная версия проходит обучение, она хорошо справляется с эталонным (необученным) набором данных, где версия танга, кажется, способна получить правильные ответы на тренировочных данных, в то время как плохо справляется. Это для той же сетевой архитектуры.

Одна интуиция, которую я имею, заключается в том, что с сигмоидом нейрону легче почти полностью отключиться, таким образом не предоставляя входных данных для последующих слоев. Для tanh здесь труднее, так как он должен полностью отменить свои входные данные, иначе он всегда дает значение следующему слою. Может быть, эта интуиция не так, хотя.

Длинный пост. Итог, в чем суть сделки, и должна ли она иметь большое значение?

neural-networks

— Дог
источник

23

В книге Симона Хайкина «Нейронные сети: всеобъемлющий фундамент» есть следующее объяснение, из которого я цитирую:

Чтобы время обучения было минимизировано, следует избегать использования ненулевых средних входных данных. Теперь, когда речь идет о сигнальном векторе приложенном к нейрону в первом скрытом слое многослойного персептрона, легко удалить среднее значение из каждого элемента перед его применением в сети. Но как насчет сигналов, поступающих на нейроны в оставшихся скрытых и выходных слоях сети? Ответ на этот вопрос заключается в типе функции активации, используемой в сети. Если функция активации является несимметричной, как в случае сигмоидальной функции, выход каждого нейрона ограничен интервалом . Такой выбор представляет источник систематического смещения $\bf x$ $\bf x$ $[0,1]$ для тех нейронов, расположенных за первым слоем сети. Чтобы преодолеть эту проблему, нам нужно использовать антисимметричную функцию активации, такую как гиперболическая касательная функция. При этом последнем выборе выход каждого нейрона может принимать как положительные, так и отрицательные значения в интервале , и в этом случае его среднее значение может быть равно нулю. Если подключение к сети велико, обучение обратному распространению с антисимметричными функциями активации может привести к более быстрой сходимости, чем аналогичный процесс с несимметричными функциями активации, для чего также имеются эмпирические данные (LeCun et al. 1991). $[-1,1]$

Цитируемая ссылка:

Ю. ЛеКун, И. Кантер и С. А. Солла: "Свойства второго порядка поверхностей ошибок: время обучения и обобщение", Достижения в системах обработки нейронной информации, вып. 3, с. 918-924, 1991.

Еще одна интересная ссылка:

Y. LeCun, L. Bottou, G. Orr и K. Muller: « Эффективный BackProp », в Orr, G. and Muller K. (Eds), Нейронные сети: хитрости торговли, Springer, 1998

— tiagotvv
источник

Нейроны ReLU, кажется, работают довольно хорошо, несмотря на их предвзятость. Есть ли у вас мысли по этому поводу?

— Арк-кун

@ Арк-кун, я не знаю много о нейронах ReLU, но я могу отослать вас к этой статье, где авторы объясняют преимущества такой функции активации. X. Глорот, А. Бордес и Й. Бенджио "Глубокие разреженные выпрямительные нейронные сети AISTATS 2011. jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf

— tiagotvv

1

Эти две функции активации очень похожи, но смещены. В моей оригинальной сети не было условий смещения. С добавлением уклонов все гораздо стабильнее. Исходя из моего опыта, я бы сказал, что один или другой из них могут работать лучше для конкретного приложения по сложным, возможно, непонятным причинам, но правильный подход состоит в том, чтобы включить термины смещения, чтобы зависимость от смещения активации могла быть уменьшена или устранена.

— Дог
источник

0

Активация на выходных узлах не работает с (двоичной) перекрестной потерей энтропии: $\tanh$

L = - \frac{1}{n} \sum_{i} (y_{i} \log (p_{i}) + (1 - y_{i}) \log (1 - p_{i}))

${\cal L} = -\frac{1}{n} \sum_{i} \left(y_i \log(p_i) + (1 - y_i) \log(1-p_i)\right)$

$y_i$ $i$ $p_i$ $i$

$p_i$ $\tanh$

— Андре Хольцнер
источник

Вы можете масштабировать их, хотя. tanh (X) -1 делит производную и не имеет проблемы с отрицательными логами

— Пабло Арнау Гонсалес