Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном и том же наборе данных). С другой стороны, исходный источник утверждает, что факт ошибки OOB, вычисляемый во время обучения модели, является достаточным показателем эффективности тестового набора. Даже Тревор Хасти в своих сравнительно недавних беседах говорит, что «Случайные леса обеспечивают бесплатную перекрестную проверку». Интуитивно, это имеет смысл для меня, если я тренируюсь и пытаюсь улучшить модель на основе RF на одном наборе данных.
Может кто-нибудь, пожалуйста, изложите аргументы за и против необходимости перекрестной проверки со случайными лесами?