Согласно этому руководству по глубокому обучению , снижение веса (регуляризация) обычно не применяется к терминам смещения b, почему?
Какое значение (интуиция) стоит за этим?
Согласно этому руководству по глубокому обучению , снижение веса (регуляризация) обычно не применяется к терминам смещения b, почему?
Какое значение (интуиция) стоит за этим?
Ответы:
Перенастройка обычно требует, чтобы выходные данные модели были чувствительны к небольшим изменениям во входных данных (т. Е. Для точной интерполяции целевых значений вам требуется большая кривизна в подобранной функции). Параметры смещения не влияют на кривизну модели, поэтому, как правило, нет смысла их регуляризировать.
Мотивация за L2 (или L1) заключается в том, что, ограничивая веса, ограничивая сеть, вы с меньшей вероятностью перегоните. Не имеет смысла ограничивать вес смещений, поскольку смещения фиксированы (например, b = 1), таким образом, работают как перехватчики нейронов, что имеет смысл, чтобы получить большую гибкость.
Я хотел бы добавить, что термин смещения часто инициализируется средним значением, 1
а не значением 0
, поэтому мы могли бы захотеть упорядочить его таким образом, чтобы не слишком сильно отклоняться от постоянного значения, 1
такого как «делать, 1/2*(bias-1)^2
а не» 1/2*(bias)^2
.
Может быть, это -1
поможет замена части вычитанием из среднего значения смещений, может быть, среднее значение для каждого слоя или общее. Все же это - только гипотеза, которую я делаю (о среднем вычитании).
Это все также зависит от функции активации. Например: сигмоиды могут быть плохими для исчезающих градиентов, если смещения регулируются до высоких постоянных смещений.
В учебном пособии говорится, что «применение снижения веса к единицам смещения обычно незначительно влияет на конечную сеть», поэтому, если это не поможет, тогда вы можете прекратить делать это для устранения одного гиперпараметра. Если вы думаете, что регуляризация смещения поможет в вашей настройке, тогда перекрестная проверка его; в попытках нет вреда.