Нормализация входа для нейронов ReLU


9

Согласно «Эффективному Backprop» ЛеКуна и др. (1998), хорошей практикой является нормализация всех входных данных таким образом, чтобы они центрировались вокруг 0 ​​и лежали в диапазоне максимальной второй производной. Так, например, мы бы использовали [-0,5,0,5] для функции «Тан». Это должно помочь прогрессу обратного распространения, поскольку гессиан становится более устойчивым.

Тем не менее, я не был уверен, что делать с нейронами выпрямителя, которые являются максимальными (0, х). (Также с логистической функцией с тех пор мы бы хотели что-то вроде [0.1,0.9], но это не с центром в 0)

Ответы:


7

Насколько мне известно, наиболее близкой вещью к тому, что вы можете искать, является недавняя статья исследователей Google: « Нормализация партии: ускорение обучения в глубокой сети за счет уменьшения внутреннего смещения Covariate» .

Пакетная нормализация

LYLзнак равное(WИкс+б)еW,бИкс

Что делает BN Normalization следующим образом:

  1. WИкс+бИкс^Икс^WИкс+б
  2. Икс^γИкс^+β,
  3. Y^Lзнак равное(γИкс^+β)

Таким образом, BN стандартизирует «необработанные» (читай: перед тем, как применить нелинейность) выходы активации, чтобы они имели среднее значение ноль, дисперсию 1, а затем мы применяем выученное аффинное преобразование и, наконец, применяем нелинейность. В некотором смысле мы можем интерпретировать это как позволение нейронной сети изучать соответствующее параметризованное входное распределение для нелинейности.

γ,β

Мотивация аффинного преобразования

βγ

Стандартизация сначала

γ,βфактически они изучили преобразование, в котором они использовали преобразование идентичности в качестве справочного или базового показателя для сравнения. Соавторы Microsoft полагали, что наличие этой ссылки или базового уровня помогло решить проблему. Я не верю, что слишком надуманным, чтобы задаться вопросом, происходит ли что-то подобное здесь с BN и начальным этапом стандартизации.

Приложения BN

Особенно интересный результат заключается в том, что с помощью Batch Normalization команда Google смогла получить отличную начальную сеть для обучения в ImageNet и получить довольно конкурентоспособные результаты. Tanh - насыщающая нелинейность, и было трудно получить доступ к этим типам сетей из-за проблемы насыщения / исчезающих градиентов. Однако, используя Пакетную Нормализацию, можно предположить, что сеть смогла изучить преобразование, которое отображает выходные значения активации в ненасыщающий режим из-за нелинейных нелинейностей.

Заключительные заметки

Они даже ссылаются на тот же факт Янна ЛеКуна, который вы упомянули в качестве мотивации для нормализации партии.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.