Почему мои шаги становятся меньше при использовании фиксированного размера шага при градиентном спуске?

9

Предположим, что мы делаем игрушечный пример с градиентом приличия, минимизируя квадратичную функцию , используя фиксированный размер шага . ( ) $x^TAx$ $\alpha=0.03$ $A=[10, 2; 2, 3]$

Если мы построим трассировку на каждой итерации, мы получим следующий рисунок. Почему точки становятся «намного плотнее», когда мы используем фиксированный размер шага? Интуитивно понятно, что это выглядит не как фиксированный размер шага, а как уменьшающийся размер шага. $x$

PS: код R включает сюжет.

A=rbind(c(10,2),c(2,3))
f <-function(x){
  v=t(x) %*% A %*% x
  as.numeric(v)
}
gr <-function(x){
  v = 2* A %*% x
  as.numeric(v)
}

x1=seq(-2,2,0.02)
x2=seq(-2,2,0.02)
df=expand.grid(x1=x1,x2=x2)
contour(x1,x2,matrix(apply(df, 1, f),ncol=sqrt(nrow(df))), labcex = 1.5, 
        levels=c(1,3,5,10,20,40))
grid()

opt_v=0
alpha=3e-2
x_trace=c(-2,-2)
x=c(-2,-2)
while(abs(f(x)-opt_v)>1e-6){
  x=x-alpha*gr(x)
  x_trace=rbind(x_trace,x)
}
points(x_trace, type='b', pch= ".", lwd=3, col="red")
text(x_trace, as.character(1:nrow(x_trace)), col="red")

r machine-learning optimization gradient-descent

— Хайтау Ду
источник

alpha=3e-2

0.01

$0.01$

12

$f(x) = \frac 12 x^T A x$ $A$ $\nabla f(x) = Ax$ $A$ $A = Q\Lambda Q^T$ $y =Q^T x$

f (y) = \frac{1}{2} y^{T} Λ y ⟹ \nabla f (y) = Λ y .

$f(y) = \frac 12 y^T \Lambda y \implies \nabla f(y) = \Lambda y.$

$\Lambda$

y^{(n + 1)} = y^{(n)} - α Λ y^{(n)} = (I - α Λ) y^{(n)} = (I - α Λ)^{n + 1} y^{(0)} .

$y^{(n+1)} = y^{(n)} - \alpha \Lambda y^{(n)} = (I - \alpha \Lambda)y^{(n)} = (I - \alpha \Lambda)^{n+1}y^{(0)}.$

$1 - \alpha \lambda_i$ $|1 - \alpha \lambda_i| < 1$

Λ \approx (\begin{array}{cc} 10.5 & 0 \\ 0 & 2.5 \end{array})

$\Lambda \approx \left(\begin{array}{cc} 10.5 & 0 \\ 0 & 2.5\end{array}\right)$

I - α Λ \approx (\begin{array}{cc} 0.89 & 0 \\ 0 & 0.98 \end{array}) .

$I - \alpha \Lambda \approx \left(\begin{array}{cc} 0.89 & 0 \\ 0 & 0.98\end{array}\right).$

$\lambda \approx 10.5$ $0.98$ $1$ $\alpha$ $(0.98)^n$ $\alpha$

Для лучшего и более подробного обсуждения этого я настоятельно рекомендую https://distill.pub/2017/momentum/ .

— JLD
источник

y

$y$

11

$\nabla f=0$

$\alpha \nabla f$ $|\nabla f|$ $|\Delta f|\rightarrow 0$ $f(x)=x$ $\alpha$ $f(x,y)=x+y^2$ $x$

— Алекс Р.
источник