Выпадение фактически не удаляет нейроны, просто эти конкретные нейроны не играют никакой роли (не активируются) для данного пакета данных.
Пример. Предположим, что есть дорога из 8 полос движения. Когда прибывают грузовики, они проходят по полосам 1,2,4,6,7, когда приходят автомобили, они проходят по полосам 2,3,4,7,8, а когда появляются велосипеды. , они проходят по полосам 1,2,5,8. Таким образом, независимо от какого-либо транспортного средства, все полосы есть, но используются только некоторые из них.
Точно так же все нейроны используются во всей модели, но только определенное подмножество нейронов активируется для определенной партии данных. И модель не вырубается позже, сложность модели остается такой, как есть.
Зачем использовать отсев?
Как дано в книге глубокого обучения Яна Гудфеллоу,
выпадение более эффективно, чем другие стандартные недорогие регуляризаторы, такие как затухание веса, ограничения нормы фильтра и редкая регуляризация активности.
Он также говорит:
Одним из преимуществ отсева является то, что это очень дешево в вычислительном отношении.
Другое существенное преимущество отсева состоит в том, что он не ограничивает тип модели или процедуру обучения, которая может быть использована. Он хорошо работает практически с любой моделью, которая использует распределенное представление и может быть обучена с использованием стохастического градиентного спуска. Это включает в себя нейронные сети с прямой связью, вероятностные модели, такие как ограниченные машины Больцмана (Srivastava et al., 2014), и рекуррентные нейронные сети (Bayer and Osendorfer, 2014; Pascanu et al., 2014a).
Эта книга говорит
Основная идея заключается в том, что введение шума в выходные значения слоя может привести к разбивке несущественных моделей случайности, которые сеть начнет запоминать, если шума не будет.