В Случайном Лесу каждое дерево растет параллельно на уникальной выборке данных Boostrap. Поскольку ожидается, что каждая выборка бустрапа будет содержать около 63% уникальных наблюдений, это оставляет примерно 37% наблюдений, которые можно использовать для тестирования дерева.
Теперь, кажется , что в стохастической Градиент Активизации, существует также оценки похож на тот , в РФ:
Если для bag.fraction задано значение больше 0 (рекомендуется 0,5), gbm вычисляет ожидаемую оценку улучшения качества прогноза. Он оценивает уменьшение отклонения от тех наблюдений, которые не использовались при выборе следующего дерева регрессии.
Источник: Ridgeway (2007) , раздел 3.3 (стр. 8).
У меня проблемы с пониманием, как это работает / действительно. Скажем, я добавляю дерево в последовательности. Я выращиваю это дерево на случайной подвыборке исходного набора данных. Я мог бы проверить это единственное дерево на наблюдениях, которые не были использованы для его выращивания. Согласовано. НО , поскольку Boosting является последовательным, я скорее использую всю последовательность деревьев, построенных до сих пор, чтобы обеспечить прогноз для этих опущенных наблюдений. И есть большая вероятность, что многие из предшествующих деревьев уже видели эти наблюдения. Таким образом, модель на самом деле не тестируется в каждом раунде на невидимых наблюдениях, как с RF, верно?
Итак, как же это называется оценкой ошибки "из пакета"? Мне кажется, что это не "из" сумки, так как наблюдения уже были замечены?