Похоже, что оптимизатор адаптивной оценки моментов (Адам) почти всегда работает лучше (быстрее и надежнее, достигая глобального минимума) при минимизации функции стоимости в обучении нейронных сетей.
Почему не всегда использовать Адама? Зачем вообще использовать RMSProp или оптимизаторы импульса?