Требуется ли перекрестная проверка для моделирования со случайными лесами?

Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном наборе данных). С другой стороны, первоначальный источник утверждает, что факт ошибки OOB, рассчитанный во время обучения модели, является достаточным показателем эффективности тестового набора. Даже Тревор Хасти в своих сравнительно недавних беседах говорит, что «Случайные леса обеспечивают бесплатную перекрестную проверку». Интуитивно, это имеет смысл для меня, если тренироваться и пытаться улучшить модель на основе RF на одном наборе данных.

Каково ваше мнение по этому поводу?

— нейрон
источник

это не затрагивает основную часть вопроса - но вы все равно, вероятно, захотите перекрестную проверку вторичных параметров (таких как глубина деревьев и т. д.)

— Wouter

Вы можете использовать RF или сравнить его с другими подходами с точки зрения производительности на обучающем наборе, или использовать независимый / подмножество данных для проверки производительности. Это вопрос вашей гипотезы: пытаетесь ли вы обобщить результаты для большей популяции или просто классифицировать имеющиеся данные, а не собственность РФ.

— Катя

Ошибка OOB рассчитывается для каждого наблюдения с использованием только деревьев, которые не имели этого конкретного наблюдения в своей выборке начальной загрузки; увидеть этот связанный вопрос . Это очень приблизительно эквивалентно двукратной перекрестной проверке, так как вероятность того, что конкретное наблюдение находится в конкретной выборке начальной загрузки, составляет . $1-(1-\frac{1}{N})^N \approx 1-e^{-1} \approx 0.6$

Как указывает @Wouter, вы, вероятно, захотите выполнить перекрестную проверку для настройки параметров, но в качестве оценки ошибки набора тестов ошибка OOB должна быть в порядке.

— Эйнар
источник