Как именно DropOut работает со сверточными слоями?

Выпадение ( статья , объяснение ) обнуляет вывод некоторых нейронов. Таким образом, для MLP у вас может быть следующая архитектура для набора данных цветов Iris :

4 : 50 (tanh) : dropout (0.5) : 20 (tanh) : 3 (softmax)

Это будет работать так:

s o f t m a x (W_{3} \cdot \tanh (W_{2} \cdot mask (D, \tanh (W_{1} \cdot i n p u t_v e c t o r)))

$softmax(W_3 \cdot \tanh(W_2 \cdot \text{mask}(D, \tanh(W_1 \cdot input\_vector)))$

с , , , , (игнорируя пристрастия ради простоты). $input\_vector \in \mathbb{R}^{4 \times 1}$ $W_1 \in \mathbb{R}^{50 \times 4}$ $D \in \{0, 1\}^{50 \times 1}$ $W_2 \in \mathbb{R}^{20 \times 50}$ $W_3 \in \mathbb{R}^{20 \times 3}$

С и $D = (d)_{ij}$

d_{i j} \sim B (1, p = 0.5)

$d_{ij} \sim B(1, p=0.5)$

где операция умножает точкам на (см. произведение Адамара ). $\text{mask}(D, M)$ $D$ $M$

Следовательно, мы просто выбираем матрицу каждый раз, и таким образом отсев становится умножением узла на 0. $D$

Но для CNN мне не ясно, что именно выпало. Я вижу три возможности:

Удаление полных карт характеристик (отсюда и ядро)
Удаление одного элемента ядра (замена элемента ядра на 0)
Удаление одного элемента карты объектов

Пожалуйста, добавьте ссылку / цитату к вашему ответу.

Мои мысли

Я думаю, что Лазанье делает (3) (см. Код ). Это может быть самым простым для реализации. Тем не менее, ближе к первоначальной идее может быть (1).

Кажется, похоже на Caffe (см. Код ). Для тензорного потока пользователь должен решить ( код - я не уверен, что происходит, когда noise_shape=Noneпередается).

Как это должно быть

(2) и (3) не имеют особого смысла, поскольку это заставит сеть добавить инвариантность к пространственным позициям, что, вероятно, нежелательно. Следовательно, (1) является единственным вариантом, который имеет смысл. Но я не уверен, что произойдет, если вы используете реализацию по умолчанию.

dropout

— Мартин Тома
источник

Я задал вопрос также в группе пользователей Lasagne .

— Мартин Тома

Мой друг отметил, что (2) и (3) могут не быть хорошей идеей, потому что это может заставить сеть распространять информацию в пространстве.

— Мартин Тома

$l$ $W^{(l+1)}$

Для более подробной информации, я думаю, что раздел 3 в этой статье может помочь вам: Max-pooling & Convolutional dropout . Конкретно 3.2.

При тестировании вы используете все узлы сети, но с весами фильтра, масштабированными по вероятности удержания, как объяснено в статье.

Пожалуйста, не стесняйтесь уточнить или исправить мой ответ.

Надеюсь, это поможет хоть немного.

— Леонард Аукеа
источник