В другом месте я читал, что выбор функции активации скрытого слоя в NN должен основываться на потребности , то есть, если вам нужны значения в диапазоне от -1 до 1, используйте tanh и используйте сигмоид для диапазона от 0 до 1.
Мой вопрос: как узнать, что нужно ? Основано ли оно на диапазоне входного слоя, например, использовать функцию, которая может охватывать полный диапазон значений входного слоя, или как-то отражает распределение входного слоя (функция Гаусса)? Или проблема связана с конкретной областью, и чтобы сделать этот выбор, нужен собственный опыт / суждение? Или это просто «использовать то, что дает лучшую перекрестную проверку минимальной ошибки обучения?»
1 + (1 / exp(-sum))
. Создание потребности очень трудно понять , не пытаясь как на каждом наборе данных. Нужно , как вы описали его здесь привязан к фактическому отношению будучи узнал, т.е. двоичного набор данных будет учиться быстрее или не на все заданные различные активации.