Есть ли способ получить показатель достоверности (мы можем также назвать его значением достоверности или вероятности) для каждого прогнозируемого значения при использовании таких алгоритмов, как Random Forests или Extreme Gradient Boosting (XGBoost)? Допустим, этот показатель доверия будет варьироваться от 0 до 1 и покажет, насколько я уверен в том или ином прогнозе .
Из того, что я нашел в Интернете о доверии, обычно оно измеряется интервалами. Вот пример вычисленных доверительных интервалов с confpred
функцией из lava
библиотеки:
library(lava)
set.seed(123)
n <- 200
x <- seq(0,6,length.out=n)
delta <- 3
ss <- exp(-1+1.5*cos((x-delta)))
ee <- rnorm(n,sd=ss)
y <- (x-delta)+3*cos(x+4.5-delta)+ee
d <- data.frame(y=y,x=x)
newd <- data.frame(x=seq(0,6,length.out=50))
cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd)
if (interactive()) { ##'
plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y")
with(cc, lava::confband(newd$x, lwr, upr, fit, lwd=3, polygon=T,
col=Col("blue"), border=F))
}
Вывод кода дает только доверительные интервалы:
Существует также библиотека conformal
, но она также используется для доверительных интервалов в регрессии: «конформный» позволяет вычислять ошибки прогнозирования в рамках конформного прогнозирования: (i) p.values для классификации и (ii) доверительные интервалы для регрессии. "
Так есть ли способ:
Чтобы получить достоверные значения для каждого прогноза в каких-либо проблемах регрессии?
Если нет способа, было бы целесообразно использовать для каждого наблюдения в качестве показателя достоверности это:
расстояние между верхней и нижней границами доверительного интервала (как в примере выше). Таким образом, в этом случае, чем шире доверительный интервал, тем больше неопределенность (но это не учитывает, где в интервале находится фактическое значение)
randomForestCI
упаковку Стефана Вейджера и сопроводительную газету с Сьюзен Ати. Обратите внимание, что он предоставляет только CI, но вы можете сделать интервал прогнозирования из него, рассчитав остаточную дисперсию.