48

Я пытаюсь понять разницу между GBM и Adaboost.

Вот что я понял до сих пор:

Существуют оба алгоритма повышения, которые учатся на ошибках предыдущей модели и, наконец, составляют взвешенную сумму моделей.
GBM и Adaboost очень похожи, за исключением функций потери.

Но мне все еще трудно понять идею различий между ними. Может кто-нибудь дать мне интуитивные объяснения?

boosting gbm adaboost

34

Я обнаружил, что это введение может дать некоторые интуитивные объяснения.

В Gradient Boosting «недостатки» (существующих слабых учеников) определяются градиентами .

В Adaboost «недостатки» идентифицируются точками данных с большим весом .

В моем понимании, экспоненциальная потеря Adaboost дает больший вес для тех образцов, которые установлены хуже. В любом случае, Adaboost рассматривается как особый случай повышения градиента с точки зрения функции потерь, как показано в истории повышения градиента, представленной во введении.

Изобретите Adaboost, первый успешный алгоритм повышения [Freund et al., 1996, Freund and Schapire, 1997]

Сформулируйте Adaboost как градиентный спуск со специальной функцией потерь [Breiman et al., 1998, Breiman, 1999]

Обобщение Adaboost к Gradient Boosting для обработки множества функций потерь [Friedman et al., 2000, Friedman, 2001]

— Randel
источник

11

Интуитивное объяснение алгоритма AdaBoost

Позвольте мне опираться на превосходный ответ @ Randel с иллюстрацией следующего пункта

В Adaboost «недостатки» идентифицируются точками данных с большим весом

Резюме AdaBoost

$G_m(x) \ m = 1,2,...,M$

G (x) = sign (α_{1} G_{1} (x) + α_{2} G_{2} (x) + . . . α_{M} G_{M} (x)) = sign (\sum_{m = 1}^{M} α_{m} G_{m} (x))

$G(x) = \text{sign} \left( \alpha_1 G_1(x) + \alpha_2 G_2(x) + ... \alpha_M G_M(x)\right) = \text{sign} \left( \sum_{m = 1}^M \alpha_m G_m(x)\right)$

Окончательный прогноз представляет собой комбинацию прогнозов всех классификаторов путем взвешенного большинства голосов.
$\alpha_m$ $G_m(x)$
$w_1, w_2,...,w_N$ $m$
$m=1$ $w_i = 1 / N$

AdaBoost на игрушечном примере

$M = 10$

Визуализация последовательности слабых учеников и выборочных весов

$m = 1,2...,6$

Первая итерация:

Граница принятия решения очень проста (линейна), так как это ученики
Все точки имеют одинаковый размер, как и ожидалось
6 синих точек находятся в красной области и неправильно классифицированы

Вторая итерация:

Граница линейного решения изменилась
Ранее неправильно классифицированные синие точки теперь больше (больше sample_weight) и влияют на границу решения
9 синих точек теперь неправильно классифицированы

Окончательный результат после 10 итераций

$\alpha_m$

([1,041, 0,875, 0,837, 0,781, 1,04, 0,938 ...

Как и ожидалось, первая итерация имеет самый большой коэффициент, поскольку она имеет наименьшее количество неправильных классификаций.

Следующие шаги

Интуитивное объяснение повышения градиента - будет завершено

Источники и дальнейшее чтение:

код питона и оригинальные цифры здесь
https://www.cs.cmu.edu/~aarti/Class/10701/slides/Lecture10.pdf

— Ксавье Бурре Сикотт
источник

Интуитивно понятные объяснения различий между Gradient Boosting Trees (GBM) и Adaboost