При инициализации весов соединений в нейронной сети с прямой связью важно инициализировать их случайным образом, чтобы избежать любых симметрий, которые алгоритм обучения не сможет нарушить.
Рекомендация, которую я видел в разных местах (например, в учебнике MNIST от TensorFlow ), заключается в использовании усеченного нормального распределения с использованием стандартного отклонения , гдеN- количество входов в данный нейронный слой.
Я считаю, что стандартная формула отклонения гарантирует, что обратные градиенты не растворяются и не усиливаются слишком быстро. Но я не знаю, почему мы используем усеченное нормальное распределение, а не обычное нормальное распределение. Это чтобы избежать редких выбросов?