Расширяя ответ @Dikran Marsupial ....
Анна Чороманска и ее коллеги из группы Яна ЛеКунна в Нью-Йоркском университете рассказывают об этом в своей статье AISTATS 2014 года «Поверхность потерь многослойных сетей» . Используя теорию случайных матриц, наряду с некоторыми экспериментами, они утверждают, что:
Для сетей большого размера большинство локальных минимумов эквивалентны и дают аналогичную производительность в тестовом наборе.
Вероятность нахождения «плохого» (высокого значения) локального минимума ненулевая для сетей малого размера и быстро уменьшается с ростом размера сети.
Попытка найти глобальный минимум на тренировочном наборе (в отличие от одного из множества хороших локальных) на практике бесполезна и может привести к переоснащению.
[Со страницы 2 статьи]
С этой точки зрения, нет веских оснований для развертывания тяжеловесных подходов для нахождения глобального минимума. Это время лучше потратить на опробование новых топологий сети, функций, наборов данных и т. Д
Тем не менее, многие люди думали об увеличении или замене SGD. Для довольно небольших сетей (по современным стандартам) эти улучшенные мета-эвристики, по-видимому, делают что-то, что Mavrovouniotis и Yang (2016) показывают, что оптимизация колоний муравьев + backprop превосходит неизмененный backprop в нескольких наборах эталонных данных (хотя и ненамного). Rere el al. (2015) используют моделируемый отжиг для обучения CNN и обнаруживают, что первоначально он лучше работает на наборе валидации. Однако после 10 эпох остается лишь небольшая (и не проверенная на значимость) разница в производительности. Более быстрое преимущество сходимости на эпоху также компенсируется значительно большим количеством времени вычислений на эпоху, так что это не является очевидной победой для имитации отжига.
Вполне возможно, что эти эвристики лучше справляются с инициализацией сети, и как только она будет указана верным путем, подойдет любой оптимизатор. Sutskever et al. (2013) из группы Джеффа Хинтона утверждают что-то подобное в своей статье ICML 2013 года .