Ответы:
Говоря простым языком: если ваш классификатор неверно классифицирует некоторые данные, обучите другую копию в основном этой ошибочно классифицированной части, надеясь, что она обнаружит что-то неуловимое. А потом, как обычно, повторить. По пути есть несколько схем голосования, которые позволяют разумным образом объединить прогнозы всех этих классификаторов.
Потому что иногда это невозможно (шум просто скрывает некоторую информацию или даже не присутствует в данных); с другой стороны, слишком сильное повышение может привести к переоснащению.
Повышение использует усадку с помощью параметра скорости обучения, который в сочетании с перекрестной проверкой в k- кратном порядке, прогнозами «вне сумки» (OOB) или независимым набором тестов определяет количество деревьев, которые следует хранить в ансамбле.
Мы хотим модель, которая обучается медленно, поэтому существует компромисс с точки зрения сложности каждой отдельной модели и количества включаемых моделей. Руководство, которое я видел, предлагает вам установить максимально низкую скорость обучения (с учетом требований к вычислительному времени и месту для хранения), в то время как сложность каждого дерева следует выбирать исходя из того, разрешены ли взаимодействия, и в какой степени, чем сложнее дерево, тем сложнее взаимодействия, которые можно представить.
Скорость обучения выбирается в диапазоне . Меньшие значения ( ) предпочтительнее. Это взвешивание применяется к каждому дереву, чтобы уменьшить вес вклада каждой модели в подогнанные значения.
k- кратное CV (или прогнозы OOB или независимый набор тестов) используется для определения того, когда усиленная модель начала перегоняться. По сути, это то, что мешает нам повысить идеальную модель, но лучше учиться медленно, поэтому у нас есть большой ансамбль моделей, способствующих подобранной модели.