Почему норма партии имеет обучаемый масштаб и сдвиг?

Насколько я понимаю, пакетная норма нормализует все входные объекты слоя до единичного нормального распределения, $\mathcal{N}(\mu=0,\sigma=1)$ . Среднее значение и дисперсия оцениваются путем измерения их значений для текущей мини-партии. $\mu, \sigma^2$

После нормализации входы масштабируются и сдвигаются на скалярные значения:

{\hat{Икс}}_{я}^{'} знак равно γ {\hat{Икс}}_{я} + β

$\hat{x}_i' = \gamma \hat{x}_i + \beta$

(Поправьте меня, если я здесь не прав - это то, где я начинаю немного сомневаться.)

$\gamma$ и являются скалярными значениями, и для каждого слоя с нормированной партией существует пара каждого из них. Их изучают вместе с весами, используя backprop и SGD. $\beta$

Мой вопрос заключается в том, не являются ли эти параметры избыточными, потому что входные данные могут быть масштабированы и смещены любым образом в соответствии с весами в самом слое. Другими словами, если

Y знак равно W {\hat{Икс}}^{'} + б

$y = W \hat{x}' + b$

а также

{\hat{Икс}}^{'} знак равно γ \hat{Икс} + β

$\hat{x}' = \gamma \hat{x} + \beta$

тогда

Y знак равно W^{'} \hat{Икс} + б^{'}

$y = W' \hat{x} + b'$

где и . $W' = W\gamma$ $b'=W\beta + b$

Так какой смысл добавлять их в сеть, уже способную изучать масштаб и сдвиг? Или я совершенно неправильно понимаю вещи?

batch-normalization

— Timmmm
источник

В книге глубокого обучения, раздел 8.7.1, есть отличный ответ :

Нормализация среднего и стандартного отклонения единицы может уменьшить выразительную силу нейронной сети, содержащей эту единицу. Для поддержания выразительной мощности сети обычно заменяют партию активаций скрытых единиц H на γH + β, а не просто на нормализованную H. Переменные γ и β являются изученными параметрами, которые позволяют новой переменной иметь любое среднее значение и среднеквадратичное отклонение. На первый взгляд, это может показаться бесполезным - почему мы установили среднее значение на 0, а затем ввели параметр, который позволяет вернуть его к любому произвольному значению β?

Ответ заключается в том, что новая параметризация может представлять то же семейство функций ввода, что и старая параметризация, но новая параметризация имеет другую динамику обучения. В старой параметризации среднее значение H определялось сложным взаимодействием между параметрами в слоях ниже H. В новой параметризации среднее значение γH + β определяется исключительно β. Новая параметризация намного легче учиться с градиентным спуском.

— Timmmm
источник