Предполагая довольно разумную нормализацию данных, ожидание весов должно быть нулевым или близким к нему. Тогда может быть разумным установить все начальные веса на ноль, потому что положительный начальный вес будет иметь место в дальнейшем, если он действительно будет отрицательным, и наоборот. Это, однако, не работает. Если все веса одинаковы, все они будут иметь одинаковую ошибку, и модель ничего не изучит - между нейронами нет источника асимметрии.
Вместо этого мы могли бы поддерживать веса очень близкими к нулю, но отличать их, инициализируя их маленькими ненулевыми числами. Это то, что предлагается в учебнике, который вы связали. Он имеет то же преимущество инициализации с нулем, что он близок к значению ожидания «наилучшего предположения», но симметрия также была нарушена для работы алгоритма.
У этого подхода есть дополнительные проблемы. Это не обязательно верно, что меньшие числа будут работать лучше, особенно если нейронная сеть глубока. Градиенты, рассчитанные в обратном распространении, пропорциональны весам; очень малые веса приводят к очень маленьким градиентам и могут привести к тому, что обучение займет много, гораздо больше времени или никогда не завершится.
с дт т ( д)d[ - 1d√, 1d√]