Может ли машина повышения градиента Фридмана достичь лучшей производительности, чем «Случайный лес» Бреймана ? Если да, то в каких условиях или какой набор данных может сделать gbm лучше?
Может ли машина повышения градиента Фридмана достичь лучшей производительности, чем «Случайный лес» Бреймана ? Если да, то в каких условиях или какой набор данных может сделать gbm лучше?
Ответы:
Ниже приводится объяснение того, почему Boosting обычно превосходит Random Forest на практике, но мне было бы очень интересно узнать, какие другие факторы могут объяснить преимущество Boosting по сравнению с RF в определенных настройках.
С другой стороны, Boosting уменьшает смещение (добавляя каждое новое дерево в последовательность так, чтобы было пропущено то, что было пропущено предыдущим деревом), но также и дисперсию (путем объединения многих моделей).
Таким образом, Boosting уменьшает ошибку на обоих фронтах, тогда как RF может уменьшить ошибку только за счет уменьшения дисперсии. Конечно, как я уже сказал, могут быть и другие объяснения лучшей производительности Boosting, наблюдаемой на практике. Например, на странице 591 вышеупомянутой книги сказано, что Boosting превосходит RF по проблеме вложенной сферы, потому что в этом конкретном случае истинная граница решения является аддитивной . (?) Они также сообщают, что Boosting работает лучше, чем RF для спама и данных о жилье в Калифорнии.
Еще одно упоминание, которое показало, что Boosting превосходит RF, - это Caruana и Niculescu-Mizil 2006 . К сожалению, они сообщают о результатах, но не пытаются объяснить, что их вызывает. Они сравнили два классификатора (и многие другие) по 11 задачам двоичной классификации для 8 различных показателей производительности.
Как сказал Байердж, узнать априори невозможно!
Случайные леса относительно легко откалибровать: параметры по умолчанию большинства реализаций (R или Python, например) достигают отличных результатов.
С другой стороны, GBM сложно настроить (слишком большое количество деревьев приводит к переобучению, максимальная глубина критична, скорость обучения и количество деревьев действуют вместе ...) и дольше обучаются (многопоточные реализации малочисленны) , Слабая настройка может привести к снижению производительности.
Однако, исходя из моего опыта, если вы проводите достаточно времени на GBM, вы, вероятно, достигнете лучшей производительности, чем случайный лес.
Редактировать. Почему GBM превосходят Случайные Леса? Ответ Антуана гораздо более строгий, это просто интуитивное объяснение. У них есть более критические параметры. Как и в случайных лесах, вы можете откалибровать количество деревьев иколичество переменных, на которых растут деревья. Но вы также можете откалибровать скорость обучения и максимальную глубину. Поскольку вы наблюдаете больше моделей, чем случайный лес, вы с большей вероятностью найдете что-то лучшее.
A loosely performed tuning may lead to dramatic performance?
Остерегайтесь неправильного толкования, потому что по-английски dramatic
означает очень хороший, исключительный, феноменальный и т. Д.! Я думаю, это противоположно тому, что вы хотели сказать ... Кроме того, у вас есть какое-либо объяснение, почему тщательно настроенные GBM превосходят RF? Это в основном вопрос ...