В некоторых уроках я обнаружил, что было указано, что инициализация весов «Ксавье» (статья: Понимание сложности обучения глубоких нейронных сетей с прямой связью ) является эффективным способом инициализации весов нейронных сетей.
Для полностью связанных слоев в этих уроках было практическое правило:
где - дисперсия весов для слоя, инициализированного с нормальным распределением, а , - количество нейронов в родительском и текущем слоях.п я п п о у т
Существуют ли аналогичные эмпирические правила для сверточных слоев?
Я изо всех сил пытаюсь выяснить, что было бы лучше для инициализации весов сверточного слоя. Например, в слое, где форма весов имеет (5, 5, 3, 8)
размер ядра, то есть 5x5
фильтрация трех входных каналов (вход RGB) и создание 8
карт объектов ... будет 3
считаться количеством входных нейронов? Или, скорее 75 = 5*5*3
, потому что входные данные являются 5x5
патчи для каждого цветового канала?
Я бы согласился с обоими: конкретным ответом, разъясняющим проблему, или более «общим» ответом, объясняющим общий процесс поиска правильной инициализации весов и предпочтительно связывания источников.