Слой maxout - это просто слой, где функция активации является максимумом входов. Как указано в документе, даже MLP с 2 единицами maxout может приблизиться к любой функции. Они приводят несколько причин того, почему maxout может работать хорошо, но главная причина, которую они приводят, заключается в следующем:
Исключение можно рассматривать как форму усреднения модели, в которой случайная подсеть обучается на каждой итерации, и в итоге веса различных таких случайных сетей усредняются. Так как весы нельзя усреднить явно, используется приближение. Это приближение является точным для линейной сети.
В maxout они не сбрасывают входные данные в слой maxout. Таким образом, идентичность входа, выводящего максимальное значение для точки данных, остается неизменной. Таким образом, выпадение происходит только в линейной части MLP, но все еще можно приблизить любую функцию из-за уровня maxout.
Поскольку выпадение происходит только в линейной части, они предполагают, что это приводит к более эффективному усреднению модели, поскольку приближение усреднения является точным для линейных сетей.
Их код доступен здесь .