Случайный лес представляет собой совокупность деревьев решений , сформированных случайным образом выбирая только определенные функции для построения каждого дерева с (а иногда и расфасовке тренировочную данные). По-видимому, они хорошо учатся и обобщают. Кто-нибудь делал выборку MCMC пространства дерева решений или сравнивал их со случайными лесами? Я знаю, что в вычислительном отношении может быть дороже запустить MCMC и сохранить все выбранные деревья, но меня интересуют теоретические особенности этой модели, а не вычислительные затраты. Я имею в виду что-то вроде этого:
- Построить случайное дерево решений (вероятно, это будет ужасно)
- Вычислите вероятность дерева с помощью чего-то вроде или, возможно, добавьте термин .
- Выберите случайный шаг, чтобы изменить дерево, и выберите в зависимости от вероятности .
- Каждые N шагов сохраняем копию текущего дерева
- Вернитесь к 3 для некоторых больших N * M раз
- Используйте коллекцию M сохраненных деревьев, чтобы сделать прогноз
Даст ли это производительность, аналогичную случайным лесам? Обратите внимание, что здесь мы не выбрасываем хорошие данные или функции на любом этапе, в отличие от случайных лесов.