Как обычно в некоторых алгоритмах машинного обучения, Boosting подвергается компромиссной дисперсии в отношении количества деревьев. Грубо говоря, этот компромисс говорит вам о том, что: (i) слабые модели, как правило, имеют высокое смещение и низкую дисперсию: они слишком жесткие, чтобы фиксировать изменчивость в наборе обучающих данных, поэтому также не будут хорошо работать в тестовом наборе (высокий тест ошибка) (ii) очень сильные модели, как правило, имеют низкое смещение и высокую дисперсию: они слишком гибкие и подходят для тренировочного набора, поэтому в тестовом наборе (так как точки данных отличаются от обучающего набора) они также не будут работать хорошо (высокая ошибка теста)
Концепция повышения деревьев состоит в том, чтобы начать с мелких деревьев (слабых моделей) и продолжать добавлять более мелкие деревья, которые пытаются исправить слабости предыдущих деревьев. При выполнении этого процесса ошибка теста имеет тенденцию к снижению (поскольку общая модель становится более гибкой / мощной). Однако, если вы добавите слишком много этих деревьев, вы начнете перегонять тренировочные данные и, следовательно, увеличится ошибка теста. Перекрестная проверка помогает найти нужное место