Почему бы не всегда использовать технику оптимизации ADAM?


12

Похоже, что оптимизатор адаптивной оценки моментов (Адам) почти всегда работает лучше (быстрее и надежнее, достигая глобального минимума) при минимизации функции стоимости в обучении нейронных сетей.

Почему не всегда использовать Адама? Зачем вообще использовать RMSProp или оптимизаторы импульса?


1
Я не верю, что существует какой-либо строгий, формализованный способ поддержать любое утверждение. Это все чисто эмпирически, так как поверхность ошибки неизвестна. Как показывает опыт, ADAM хорошо работает там, где другие терпят неудачу (сегментация экземпляров), хотя и не без недостатков (сходимость не монотонная)
Алекс,

2
Адам быстрее сходится. SGD медленнее, но обобщает лучше. В конце концов, все зависит от ваших конкретных обстоятельств.
agcala

Ответы:


13

Вот сообщение в блоге, в котором рассматривается статья, в которой утверждается, что SGD - лучший обобщенный адаптер, чем ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

Часто имеет смысл использовать более одного метода (ансамбля), потому что у каждого метода есть слабость.


4

Вы также должны взглянуть на этот пост, сравнивая различные оптимизаторы градиентного спуска. Как вы можете видеть ниже, Адам явно не лучший оптимизатор для некоторых задач, поскольку многие сходятся лучше.


Для справки: в связанной статье они упоминают некоторые недостатки ADAM и представляют AMSGrad как решение. Однако они приходят к выводу, что то, превзойдет ли AMSGrad ADAM на практике (на момент написания), не является окончательным.
Lus
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.