Насколько я понимаю, пакетная норма нормализует все входные объекты слоя до единичного нормального распределения, . Среднее значение и дисперсия оцениваются путем измерения их значений для текущей мини-партии.
После нормализации входы масштабируются и сдвигаются на скалярные значения:
(Поправьте меня, если я здесь не прав - это то, где я начинаю немного сомневаться.)
и являются скалярными значениями, и для каждого слоя с нормированной партией существует пара каждого из них. Их изучают вместе с весами, используя backprop и SGD.
Мой вопрос заключается в том, не являются ли эти параметры избыточными, потому что входные данные могут быть масштабированы и смещены любым образом в соответствии с весами в самом слое. Другими словами, если
а также
тогда
где и .
Так какой смысл добавлять их в сеть, уже способную изучать масштаб и сдвиг? Или я совершенно неправильно понимаю вещи?