В обзоре « Прикладное прогнозирующее моделирование » рецензент заявляет :
Одна критика, которую я имею в отношении педагогики статистического обучения (SL), - это отсутствие соображений производительности вычислений при оценке различных методов моделирования. С его акцентом на начальной загрузке и перекрестной проверке для настройки / тестирования моделей, SL довольно интенсивно использует вычислительные ресурсы. Добавьте к этому повторную выборку, встроенную в такие методы, как пакетирование и бустинг, и у вас появится призрак вычислений для контролируемого изучения больших наборов данных. Фактически, ограничения памяти R накладывают довольно жесткие ограничения на размер моделей, которые можно уместить с помощью самых эффективных методов, таких как случайные леса. Хотя SL хорошо справляется с калибровкой производительности модели по небольшим наборам данных, было бы неплохо понять производительность в сравнении с вычислительными затратами для больших данных.
Каковы ограничения памяти R, и накладывают ли они жесткие ограничения на размер моделей, которые могут быть приспособлены наиболее эффективными методами, такими как случайные леса ?