Как смещение должно быть инициализировано и упорядочено?

Я прочитал пару статей об инициализации ядра, и многие из них упоминают, что они используют L2-регуляризацию ядра (часто с ). $\lambda = 0.0001$

Кто-нибудь делает что-то иное, чем инициализация смещения с постоянным нулем и не регуляризация?

Документы инициализации ядра

Мишкин и Матас: все, что вам нужно, это хороший инициат
Ксавье Глорот и Йошуа Бенжио: понимание сложности обучения глубоких нейронных сетей с прямой связью
Он и соавт., Углубляясь в выпрямители: превосходящие человеческий уровень в классификации ImageNet

neural-network

— Мартин Тома
источник

Из заметок Stanford CS231N ( http://cs231n.github.io/neural-networks-2/ ):

Инициализация уклонов. Можно и обычно инициализировать смещения равными нулю, поскольку нарушение асимметрии обеспечивается небольшими случайными числами в весах. Для нелинейностей ReLU некоторым людям нравится использовать небольшое постоянное значение, такое как 0,01, для всех смещений, потому что это гарантирует, что все блоки ReLU срабатывают в начале и, следовательно, получают и распространяют некоторый градиент. Однако неясно, обеспечивает ли это последовательное улучшение (фактически, некоторые результаты указывают на то, что это работает хуже), и более распространенным является просто использование инициализации с нулевым смещением.

В LSTM обычно инициализируют смещения в 1 - см., Например, http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

— Лукас Бевальд
источник