Как повышение градиента, как градиентный спуск?


9

Я читаю полезную статью в Википедии о повышении градиента ( https://en.wikipedia.org/wiki/Gradient_boosting ) и пытаюсь понять, как / почему мы можем аппроксимировать невязки с помощью шага наискорейшего спуска (также называемого псевдоградиентом). ). Кто-нибудь может дать мне интуицию о том, как самый крутой спуск связан / похож на остатки? Помощь очень ценится!

введите описание изображения здесь

Ответы:


11

{xi,yi}xiff(xi)yi

12i(yif(xi))2

маленький.

ff(xi)=yy ff

L(f;y)=12(yf)2

а затем взять градиент по отношению к прогнозу

fL(f;y)=fy

y0

y1=y0f(y0,y)=y0(y0y)=y

Таким образом, мы восстанавливаем наш идеальный прогноз на шаге градиента с помощью этой настройки, что приятно!

f

L

Startff(x)=f0f

W={xi,f0y}

Now approximate LWFLWF(X)

FinallyFLf0

f1(x)=f0(x)F(x)

f1ff0f1

Надеюсь, вы видите, что действительно важно приблизить градиент потерь. В случае минимизации наименьших квадратов это принимает форму необработанных остатков, но в более сложных случаях это не так. Механизм все еще применяется, хотя. Пока можно построить алгоритм для вычисления потерь и градиента потерь на обучающих данных, мы можем использовать этот алгоритм для аппроксимации функции, минимизирующей эти потери.


iyilog(pi)+(1yi)log(1pi)

αmh(m)

0,1

1
f1f0F(x)f0αF(x)α

@ hxd1011 Да, это абсолютно правильно и важно для успешного использования градиентного усиления.
Мэтью Друри
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.