Что касается того, чтобы сделать его воспроизводимым, лучший способ - это предоставить воспроизводимые исследования (т.е. код и данные) вместе с документом. Сделайте его доступным на вашем веб-сайте или на хостинг-сайте (например, на github).
Что касается визуализации, Лео Брейман проделал некоторую интересную работу над этим (см. Его домашнюю страницу , в частности, раздел о графике ).
Но если вы используете R, то randomForest
пакет имеет несколько полезных функций:
data(mtcars)
mtcars.rf <- randomForest(mpg ~ ., data=mtcars, ntree=1000, keep.forest=FALSE,
importance=TRUE)
plot(mtcars.rf, log="y")
varImpPlot(mtcars.rf)
А также
set.seed(1)
data(iris)
iris.rf <- randomForest(Species ~ ., iris, proximity=TRUE,
keep.forest=FALSE)
MDSplot(iris.rf, iris$Species)
Я не знаю простого способа на самом деле построить дерево, но вы можете использовать getTree
функцию, чтобы получить дерево и построить его отдельно.
getTree(randomForest(iris[,-5], iris[,5], ntree=10), 3, labelVar=TRUE)
В презентации Strobl / Zeileis «Почему и как использовать меры важности случайных лесных переменных (и как не следует)» приводятся примеры деревьев, которые должны были быть получены таким образом. Этот пост в блоге о древовидных моделях содержит несколько хороших примеров диаграмм дерева CART, которые вы можете использовать, например.
Как прокомментировал @chl, одно дерево не имеет особого смысла в этом контексте, поэтому если не использовать его для объяснения того, что такое случайный лес, я бы не стал включать это в статью.