Я использую пакет randomForest в R для разработки модели случайного леса, чтобы попытаться объяснить непрерывный результат в «широком» наборе данных с большим количеством предикторов, чем выборок.
В частности, я подгоняю одну модель RF, позволяющую процедуре выбрать из набора ~ 75 переменных предиктора, которые я считаю важными.
Я проверяю, насколько хорошо эта модель предсказывает фактический результат для зарезервированного набора тестирования, используя подход, опубликованный здесь ранее , а именно:
... или в R:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Но теперь у меня есть дополнительные ~ 25 предикторных переменных, которые я могу добавить. При использовании набора ~ 100 предикторов R² выше. Я хочу проверить это статистически, иными словами, при использовании набора из ~ 100 предикторов модель значительно лучше тестирует данные, чем модель, подходящая с использованием ~ 75 предикторов. То есть, R2 при тестировании модели RF подходит для полного набора данных значительно выше, чем R² при тестировании модели RF на сокращенном наборе данных.
Это важно для меня, чтобы проверить, потому что это пилотные данные, и получить эти 25 дополнительных предикторов было дорого, и мне нужно знать, должен ли я платить за измерение этих предикторов в более широком последующем исследовании.
Я пытаюсь придумать какой-то подход к пересэмплингу / перестановке, но ничего не приходит в голову.