Почему инициализация весов и смещений должна быть выбрана около 0?

13

Я прочитал это:

Чтобы обучить нашу нейронную сеть, мы инициализируем каждый параметр W (l) ijWij (l) и каждый b (l) ibi (l) к небольшому случайному значению около нуля (скажем, согласно нормальному (0, 02) нормальному (0) , ϵ2) распределение для некоторого малого ϵϵ, скажем 0,01)

из учебников Стэнфорда по углубленному изучению в 7-м абзаце алгоритма обратного распространения

Я не понимаю, почему инициализация веса или смещения должна быть около 0 ?

deep-learning stanford-nlp randomized-algorithms

— cinqS
источник

11

Предполагая довольно разумную нормализацию данных, ожидание весов должно быть нулевым или близким к нему. Тогда может быть разумным установить все начальные веса на ноль, потому что положительный начальный вес будет иметь место в дальнейшем, если он действительно будет отрицательным, и наоборот. Это, однако, не работает. Если все веса одинаковы, все они будут иметь одинаковую ошибку, и модель ничего не изучит - между нейронами нет источника асимметрии.

Вместо этого мы могли бы поддерживать веса очень близкими к нулю, но отличать их, инициализируя их маленькими ненулевыми числами. Это то, что предлагается в учебнике, который вы связали. Он имеет то же преимущество инициализации с нулем, что он близок к значению ожидания «наилучшего предположения», но симметрия также была нарушена для работы алгоритма.

У этого подхода есть дополнительные проблемы. Это не обязательно верно, что меньшие числа будут работать лучше, особенно если нейронная сеть глубока. Градиенты, рассчитанные в обратном распространении, пропорциональны весам; очень малые веса приводят к очень маленьким градиентам и могут привести к тому, что обучение займет много, гораздо больше времени или никогда не завершится.

$sqrt(d)$ $d$ $\left[\frac{-1}{\sqrt{d}}, \frac{1}{\sqrt{d}}\right]$

— Eumenedies
источник

3

Если вы установите его в 0, у всех будет одинаковая ошибка, поэтому backprop сделает их равными; следовательно, вы должны иметь случайную инициализацию.

Почему около 0? Я думаю, что этот пост может ответить на него хорошо: /stats/47590/what-are-good-initial-weights-in-a-neural-network

— Landmaster
источник