Как повышение градиента, как градиентный спуск?

Я читаю полезную статью в Википедии о повышении градиента ( https://en.wikipedia.org/wiki/Gradient_boosting ) и пытаюсь понять, как / почему мы можем аппроксимировать невязки с помощью шага наискорейшего спуска (также называемого псевдоградиентом). ). Кто-нибудь может дать мне интуицию о том, как самый крутой спуск связан / похож на остатки? Помощь очень ценится!

self-study gradient-descent

— Wouter
источник

$\{ x_i, y_i \}$ $x_i$ $f$ $f(x_i) \approx y_i$

\frac{1}{2} \sum_{i} (y_{i} - f (x_{i}))^{2}

$\frac{1}{2} \sum_i (y_i - f(x_i))^2$

маленький.

$f$ $f(x_i) = y$ $y$ $f$ $f$

L (f; y) = \frac{1}{2} (y - f)^{2}

$L(f; y) = \frac{1}{2} (y - f)^2$

а затем взять градиент по отношению к прогнозу

\nabla_{f} L (f; y) = f - y

$\nabla_f L(f; y) = f - y$

$y_0$

y_{1} = y_{0} - \nabla_{f} (y_{0}, y) = y_{0} - (y_{0} - y) = y

$y_1 = y_0 - \nabla_f (y_0, y) = y_0 - (y_0 - y) = y$

Таким образом, мы восстанавливаем наш идеальный прогноз на шаге градиента с помощью этой настройки, что приятно!

$f$

$\nabla L$

Start $f$ $f(x) = f_0$ $f$

W = {x_{i}, f_{0} - y}

$W = \{ x_i, f_0 - y \}$

Now approximate $\nabla L$ $W$ $F \approx \nabla L$ $W$ $F(X)$

Finally $F$ $\nabla L$ $f_0$

f_{1} (x) = f_{0} (x) - F (x)

$f_1(x) = f_0(x) - F(x)$

$f_1$ $f$ $f_0$ $f_1$

Надеюсь, вы видите, что действительно важно приблизить градиент потерь. В случае минимизации наименьших квадратов это принимает форму необработанных остатков, но в более сложных случаях это не так. Механизм все еще применяется, хотя. Пока можно построить алгоритм для вычисления потерь и градиента потерь на обучающих данных, мы можем использовать этот алгоритм для аппроксимации функции, минимизирующей эти потери.

— Мэтью Друри
источник

\sum_{i} y_{i} \log (p_{i}) + (1 - y_{i}) \log (1 - p_{i})

$\sum_i y_i \log (p_i) + (1 - y_i) \log(1 - p_i)$

α_{m} * h (m)

$\alpha_m*h(m)$

0, 1

$0,1$

f_{1}

$f_1$

f_{0} - F (x)

$f_0-F(x)$

f_{0} - α * F (x)

$f_0-\alpha*F(x)$

α

$\alpha$

@ hxd1011 Да, это абсолютно правильно и важно для успешного использования градиентного усиления.

— Мэтью Друри