Я слышал, как Эндрю Нг (в видео, которое я, к сожалению, больше не могу найти) рассказывал о том, как изменилось понимание локальных минимумов в задачах глубокого обучения в том смысле, что они теперь рассматриваются как менее проблемные, поскольку в многомерных пространствах (встречающихся в глубокое обучение) критические точки, скорее всего, будут седловыми точками или плато, а не локальными минимумами.
Я видел документы (например, этот ), в которых обсуждаются предположения, согласно которым «каждый локальный минимум является глобальным минимумом». Все эти предположения носят скорее технический характер, но, насколько я понимаю, они имеют тенденцию навязывать структуру нейронной сети, которая делает ее несколько линейной.
Является ли обоснованным утверждение, что при глубоком обучении (включая нелинейные архитектуры) плато более вероятны, чем локальные минимумы? И если так, есть ли (возможно, математическая) интуиция за этим?
Есть ли что-то особенное в глубоком обучении и в седлах?