Я применяю алгоритм случайного леса в качестве классификатора для набора данных микрочипов, который разделен на две известные группы с тысячами объектов. После первого запуска я смотрю на важность функций и снова запускаю алгоритм дерева с 5, 10 и 20 наиболее важными функциями. Я обнаружил, что для всех 10-ти и 20-ти функций оценка вероятности ошибок OOB составляет 1,19%, тогда как для топ-5 функций - 0%. Это кажется мне нелогичным, поэтому мне было интересно, можете ли вы объяснить, что я что-то упускаю или я использую неправильную метрику.
Я использовал пакет randomForest в R с ntree = 1000, nodeize = 1 и mtry = sqrt (n)