Как вы говорите, об этом много говорилось, и есть довольно тяжелая теория, которая, как я понимаю, никогда не была полностью понятна. По моему практическому опыту AdaBoost достаточно устойчив к переоснащению, а LPBoost (усиление линейного программирования) тем более (потому что целевая функция требует разреженной комбинации слабых учеников, что является формой контроля производительности). Основные факторы, которые влияют на это:
Сила «слабых» учеников: если вы используете очень простых слабых учеников, таких как пни решений (деревья решений 1-го уровня), то алгоритмы гораздо менее подвержены переобучению. Всякий раз, когда я пытался использовать более сложных слабых учеников (таких как деревья решений или даже гиперплоскости), я обнаруживал, что переоснащение происходит намного быстрее
Уровень шума в данных: AdaBoost особенно склонен к перегрузке на зашумленных наборах данных. В этом случае предпочтительными являются регуляризованные формы (RegBoost, AdaBoostReg, LPBoost, QPBoost).
Размерность данных: мы знаем, что в целом мы испытываем переобучение в многомерных пространствах («проклятие размерности»), и AdaBoost также может пострадать в этом отношении, поскольку это просто линейная комбинация классификаторов, которые сами страдают из проблемы. Трудно определить, насколько он подвержен влиянию других классификаторов.
К
caret
подтверждающих это, но вы можете использовать пакет для перекрестной проверки adaboost, и я обнаружил, что он обычно хорошо обобщает.