MCMC выборка пространства дерева решений в сравнении со случайным лесом


11

Случайный лес представляет собой совокупность деревьев решений , сформированных случайным образом выбирая только определенные функции для построения каждого дерева с (а иногда и расфасовке тренировочную данные). По-видимому, они хорошо учатся и обобщают. Кто-нибудь делал выборку MCMC пространства дерева решений или сравнивал их со случайными лесами? Я знаю, что в вычислительном отношении может быть дороже запустить MCMC и сохранить все выбранные деревья, но меня интересуют теоретические особенности этой модели, а не вычислительные затраты. Я имею в виду что-то вроде этого:

  1. Построить случайное дерево решений (вероятно, это будет ужасно)
  2. Вычислите вероятность дерева с помощью чего-то вроде или, возможно, добавьте термин .P(Tree|Data)P(Data|Tree)Pprior(Tree)
  3. Выберите случайный шаг, чтобы изменить дерево, и выберите в зависимости от вероятности .P(Tree|Data)
  4. Каждые N шагов сохраняем копию текущего дерева
  5. Вернитесь к 3 для некоторых больших N * M раз
  6. Используйте коллекцию M сохраненных деревьев, чтобы сделать прогноз

Даст ли это производительность, аналогичную случайным лесам? Обратите внимание, что здесь мы не выбрасываем хорошие данные или функции на любом этапе, в отличие от случайных лесов.


2
Я не уверен, что это именно та процедура, которую вы набросали, но есть БАРТ . Вот ссылка на PDF
Джоран

Ответы:



4

К сожалению, Chipman et al. в их байесовском подходе CART извлекают только наиболее вероятное дерево. Они никогда не пытались усреднить по деревьям и сравнивать производительность со случайным лесом и экстра-деревьями.

Я только что прочитал статью BART от Chipman. Если я правильно понимаю, это байесовское усреднение K выборок по коллекции m деревьев. Это интересно во многих отношениях и, кажется, работает действительно хорошо. Когда m = '1', это простое байесовское усреднение K образцов 1 дерева, приходящих сзади. Тем не менее, по этому конкретному аспекту не было сделано много испытаний. И мне все равно было бы интересно узнать, как случайный лес или экстра-деревья сравниваются с истинной байесовской моделью.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.