Я думаю, что в оригинальной статье они предлагают использовать ), но в любом случае идея заключается в следующем:журнал2( N+ 1
Количество случайно выбранных объектов может влиять на ошибку обобщения двумя способами: выбор многих объектов увеличивает прочность отдельных деревьев, тогда как уменьшение количества объектов приводит к снижению корреляции между деревьями, что увеличивает прочность леса в целом.
Интересно, что авторы Случайных лесов» (pdf) находят эмпирическую разницу между классификацией и регрессией:
Интересная разница между регрессией и классификацией заключается в том, что корреляция увеличивается довольно медленно по мере увеличения количества используемых признаков.
N/ 3N--√ .
В целом, нет четкого обоснования N--√журналN для задач классификации, отличных от тех, которые показали, что более низкая корреляция между деревьями может уменьшить ошибку обобщения достаточно, чтобы более чем компенсировать уменьшение силы отдельных деревьев. В частности, авторы отмечают, что диапазон, в котором этот компромисс может уменьшить ошибку обобщения, довольно велик:
Промежуточный диапазон обычно велик. В этом диапазоне по мере увеличения числа признаков корреляция увеличивается, но PE * (дерево) компенсируется уменьшением.
(PE * является ошибкой обобщения)
Как говорится в элементах статистического обучения:
На практике наилучшие значения этих параметров будут зависеть от проблемы, и их следует рассматривать как параметры настройки.
Одна вещь, от которой может зависеть ваша проблема - это количество категориальных переменных. Если у вас много категориальных переменных, которые закодированы как фиктивные переменные, обычно имеет смысл увеличить параметр. Опять же, из статьи «Случайные леса»:
я п т ( л о г2M+ 1 )