Я читал об оптимизаторе Адама для Deep Learning и натолкнулся на следующее предложение в новой книге « Deep Learning » Бенджо, Гудфеллоу и Курвилля:
Адам, как правило, считается достаточно устойчивым к выбору гиперпараметров, хотя скорость обучения иногда необходимо изменить по сравнению с предложенным значением по умолчанию.
если это правда, то это большое дело, потому что гиперпараметрический поиск может быть очень важным (по моему опыту, по крайней мере) в статистической эффективности системы глубокого обучения. Таким образом, мой вопрос: почему Адам Робаст обладает такими важными параметрами? Специально и ?
Я читал статью Адама, и она не дает никакого объяснения тому, почему он работает с этими параметрами или почему он устойчив. Они оправдывают это в другом месте?
Кроме того, когда я читаю статью, кажется, что число гиперпараметров, которые они пробовали, было очень маленьким, для только 2 и только для 3. Как это может быть тщательным эмпирическим исследованием, если оно работает только для гиперпараметров 2x3 ?