Отсутствие условия регуляризации для единицы смещения в нейронной сети

14

Согласно этому руководству по глубокому обучению , снижение веса (регуляризация) обычно не применяется к терминам смещения b, почему?

Какое значение (интуиция) стоит за этим?

— Harshit
источник

Я думаю, что я видел очень похожий вопрос раньше, я просто не могу найти его ... Возможно, вам следует рассмотреть связанные вопросы и найти ответ тогда. Кроме того, возможно, это могло бы быть несколько полезно.

— Ричард Харди

14

Перенастройка обычно требует, чтобы выходные данные модели были чувствительны к небольшим изменениям во входных данных (т. Е. Для точной интерполяции целевых значений вам требуется большая кривизна в подобранной функции). Параметры смещения не влияют на кривизну модели, поэтому, как правило, нет смысла их регуляризировать.

— Дикран Сумчатый
источник

5

Мотивация за L2 (или L1) заключается в том, что, ограничивая веса, ограничивая сеть, вы с меньшей вероятностью перегоните. Не имеет смысла ограничивать вес смещений, поскольку смещения фиксированы (например, b = 1), таким образом, работают как перехватчики нейронов, что имеет смысл, чтобы получить большую гибкость.

— Рамалхо
источник

1

Я хотел бы добавить, что термин смещения часто инициализируется средним значением, 1а не значением 0, поэтому мы могли бы захотеть упорядочить его таким образом, чтобы не слишком сильно отклоняться от постоянного значения, 1такого как «делать, 1/2*(bias-1)^2а не» 1/2*(bias)^2.

Может быть, это -1поможет замена части вычитанием из среднего значения смещений, может быть, среднее значение для каждого слоя или общее. Все же это - только гипотеза, которую я делаю (о среднем вычитании).

Это все также зависит от функции активации. Например: сигмоиды могут быть плохими для исчезающих градиентов, если смещения регулируются до высоких постоянных смещений.

— Гийом Шевалье
источник

0

В учебном пособии говорится, что «применение снижения веса к единицам смещения обычно незначительно влияет на конечную сеть», поэтому, если это не поможет, тогда вы можете прекратить делать это для устранения одного гиперпараметра. Если вы думаете, что регуляризация смещения поможет в вашей настройке, тогда перекрестная проверка его; в попытках нет вреда.

— Эмре
источник