DropOut и DropConnect - оба метода, предназначенные, чтобы предотвратить "совместную адаптацию" единиц в нейронной сети. Другими словами, мы хотим, чтобы юниты независимо извлекали объекты из своих входных данных, а не полагались на это для других нейронов.
Предположим, у нас есть многослойная сеть с прямой связью, подобная этой (топология на самом деле не имеет значения). Мы обеспокоены тем, что желтые скрытые юниты в среднем слое могут адаптироваться.
Выбывать
Чтобы применить DropOut, мы случайным образом выбираем подмножество единиц и ограничиваем их вывод в ноль, независимо от ввода; это эффективно удаляет эти единицы из модели. Различное подмножество единиц выбирается случайным образом каждый раз, когда мы представляем учебный пример.
Ниже приведены две возможные конфигурации сети. В первой презентации (слева) 1-й и 3-й блоки отключены, но 2-й и 3-й блоки были выбраны случайным образом при следующей презентации. Во время тестирования мы используем всю сеть, но масштабируем веса, чтобы компенсировать тот факт, что все они теперь могут стать активными (например, если вы отбросите половину узлов, веса также должны быть уменьшены вдвое).
DropConnect
DropConnect работает аналогично, за исключением того, что мы отключаем отдельные веса (т. Е. Устанавливаем их на ноль) вместо узлов, чтобы узел мог оставаться частично активным. Схематически это выглядит так:
сравнение
Оба эти метода работают, потому что они позволяют эффективно обучать несколько моделей одновременно, а затем усреднять их для тестирования. Например, желтый слой имеет четыре узла и, следовательно, 16 возможных состояний DropOut (все включены, # 1 отключен, # 1 и # 2 отключены и т. Д.).
DropConnect является обобщением DropOut, потому что он производит даже больше возможных моделей, поскольку почти всегда больше соединений, чем единиц. Тем не менее, вы можете получить аналогичные результаты в отдельном исследовании. Например, сеть DropConnect справа фактически отбросила Блок № 2, так как все входящие соединения были удалены.
Дальнейшее чтение
Оригинальные статьи довольно доступны и содержат больше деталей и эмпирических результатов.