Существует ли реализация случайного леса R, которая хорошо работает с очень разреженными данными? У меня есть тысячи или миллионы логических входных переменных, но только сотни или около того будут ИСТИНА для любого данного примера.
Я относительно новичок в R и заметил, что существует пакет Matrix для работы с разреженными данными, но стандартный пакет randomForest, похоже, не распознает этот тип данных. Если это имеет значение, входные данные будут созданы за пределами R и импортированы.
Любой совет? Я также могу изучить использование Weka, Mahout или других пакетов.