Я играю с randomForest и обнаружил, что обычно увеличение SampSize приводит к повышению производительности. Существует ли правило / формула / и т. Д., В котором предлагается оптимальный размер sampSize или это метод проб и ошибок? Я предполагаю другой способ сформулировать это; каковы мои риски слишком малого размера или слишком большого размера (переоснащение?)?
Этот вопрос относится к реализации R случайного леса в randomForest
пакете. Функция randomForest
имеет параметр, sampSize
который описан в документации как
Размер (ы) образца для рисования. Для классификации, если размер выборки представляет собой вектор длины числа слоев, то выборка стратифицируется по слоям, а элементы размера выборки указывают числа, которые будут взяты из слоев.