локальные минимумы против седловых точек в глубоком обучении

Я слышал, как Эндрю Нг (в видео, которое я, к сожалению, больше не могу найти) рассказывал о том, как изменилось понимание локальных минимумов в задачах глубокого обучения в том смысле, что они теперь рассматриваются как менее проблемные, поскольку в многомерных пространствах (встречающихся в глубокое обучение) критические точки, скорее всего, будут седловыми точками или плато, а не локальными минимумами.

Я видел документы (например, этот ), в которых обсуждаются предположения, согласно которым «каждый локальный минимум является глобальным минимумом». Все эти предположения носят скорее технический характер, но, насколько я понимаю, они имеют тенденцию навязывать структуру нейронной сети, которая делает ее несколько линейной.

Является ли обоснованным утверждение, что при глубоком обучении (включая нелинейные архитектуры) плато более вероятны, чем локальные минимумы? И если так, есть ли (возможно, математическая) интуиция за этим?

Есть ли что-то особенное в глубоком обучении и в седлах?

— oW_
источник

Когда дело доходит до математической интуиции о том, почему седловая точка более вероятна, чем локальный минимум, я думаю об этом с точки зрения особенностей. Чтобы быть локальным минимумом, он должен быть локальным минимумом во всех направлениях. Напротив, для седловой точки только одно направление должно отличаться от другого. Гораздо более вероятно, что один или несколько человек имеют другое поведение по сравнению с другими по сравнению с одинаковым поведением во всех направлениях.

— Пол

спасибо, теперь, когда вы это говорите, это очевидно ... вот интересное обсуждение этой темы

— oW_

Эндрю Нг имеет видео на тему «Проблема локальных минимумов» на 2-й неделе своего курса Coursera «Улучшение глубоких нейронных сетей: настройка гиперпараметров, регуляризация и оптимизация». Может быть, это тот, который вы ищете.

— Мюль

посмотрите здесь

— СМИ

Ответы:

Это просто попытка передать мою интуицию, то есть никакой строгости. Особенность седловых точек в том, что они представляют собой тип оптимума, который сочетает в себе комбинацию минимумов и максимумов. Поскольку количество измерений настолько велико при глубоком обучении, вероятность того, что оптимум состоит только из комбинации минимумов, очень мала. Это означает, что «застрять» в локальном минимуме редко. С риском упрощения труднее «застрять» в седловой точке, потому что вы можете «скользить вниз по одному из измерений». Я думаю, что видео Эндрю Нг, на которое вы ссылаетесь, взято из курса Coursera по его глубокому обучению.

— user41985
источник

D = [\begin{matrix} d_{1} \\ ⋱ \\ d_{n} \end{matrix}]

$D = \begin{bmatrix} d_{1} & & \\ & \ddots & \\ & & d_{n} \end{bmatrix}$

d_{1} > 0, \dots, d_{n} > 0

$d_1 > 0, \dots, d_n>0$

$d_1,\dots,d_n$ $d_i$ $1/2$ $d_i$ $d_j$ Из-за высокой нелинейности матрицы Гессена, поэтому мы будем принимать вероятности того, что они будут положительными, как независимые события.

P (d_{1} > 0, \dots, d_{n} > 0) = P (d_{1} > 0) \cdot \dots \cdot P (d_{n} > 0) = \frac{1}{2^{n}}

$P(d_1 > 0, \dots, d_n > 0) = P(d_1 > 0)\cdot \cdots \cdot P(d_n > 0) = \frac{1}{2^n}$

$10^8$ $1/2^n$

Но как быть с максимумами?

$1/2 ^n$

P (s a d d l e) = 1 - P (m a x i m u m) - P (m i n i m u m) = 1 - \frac{1}{2^{n}} - \frac{1}{2^{n}} = 1 - \frac{1}{2^{n - 1}}

$P(saddle) = 1 - P(maximum) - P(minimum) = 1 - \frac{1}{2^n} - \frac{1}{2^n} = 1 - \frac{1}{2^{n-1}}$

$n$

— Дэвид Масип
источник