Этот вопрос рассматривается в этом очень хорошем посте. Пожалуйста, посмотрите на него и ссылки в нем. http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/
Обратите внимание, что в статье говорится о калибровке, и ссылки на другой (хороший) пост в блоге об этом. Тем не менее, я обнаружил, что статья « Получение калиброванных вероятностей от повышения» дает вам лучшее понимание того, что такое калибровка в контексте повышенных классификаторов и каковы стандартные методы ее выполнения.
И, наконец, отсутствует один аспект (немного более теоретический). И RF, и GBM являются методами ансамбля, что означает, что вы строите классификатор из большого количества меньших классификаторов. Теперь принципиальное отличие заключается в используемом методе:
- RF использует деревья решений, которые очень склонны к переоснащению. Чтобы достичь более высокой точности, RF решает создать большое их количество на основе упаковки . Основная идея состоит в том, чтобы многократно повторять выборку данных, и для каждой выборки обучать новый классификатор. Различные классификаторы по-разному дополняют данные, и посредством голосования эти различия усредняются.
- GBM - это метод повышения, основанный на слабых классификаторах . Идея состоит в том, чтобы добавлять классификатор за раз, чтобы следующий классификатор обучался совершенствованию уже обученного ансамбля. Обратите внимание, что для каждой итерации RF классификатор обучается независимо от остальных.