Два момента:
- Выпадение также обычно сравнивают с ансамблями нейронных сетей. Кажется, что он имеет некоторые преимущества в производительности обучения и усреднения нескольких нейронных сетей.
- Выпадение легче откалибровать, чем регуляризацию. Существует только один гиперпараметр, который представляет собой коэффициент отсева, и люди широко используют 0,5 во время обучения (а затем 1,0 при оценке курса :)), см., Например, этот пример TensorFlow .
Во всяком случае, я немного скептически отношусь к эмпирическим исследованиям нейронных сетей. Слишком много гиперпараметров для тонкой настройки, от топологии сети до процедуры оптимизации градиентного спуска до функций активации и всего, что вы тестируете, например регуляризации. Тогда все дело в стохастике, и обычно прирост производительности настолько мал, что вряд ли можно провести статистический тест на различия. Многие авторы даже не удосужились провести статистическое тестирование. Они просто усредняют перекрестную проверку и объявляют, какая модель имеет наибольшее усиление десятичной точки, чтобы быть победителем.
Вы можете обнаружить, что исследование, способствующее отсеву, противоречит другому, способствующему регуляризации.
Я думаю, что все сводится к эстетическим предпочтениям. Отсев ИМХО звучит более правдоподобно, чем регуляризация. Это также кажется легче калибровать. Так что я лично предпочитаю это при использовании фреймворка типа TensorFlow. Если нам придется использовать собственную нейронную сеть, что мы часто делаем, мы будем использовать регуляризацию, потому что ее было проще реализовать.