Проблема, которую вы описываете, - это проблема интерпретации, а не обоснованности. Оценка смещения начальной загрузки для вашей постоянной оценки не является недействительной, она фактически идеальна.
Оценка самозагрузки смещения между блоком оценки thetas ; = евыми ( х ) и параметр θ = т ( Р ) , где Р некоторым неизвестным распределением и х образцами из F . Функция t ( F ) - это то, что вы могли бы в принципе рассчитать, если бы у вас было население. Несколько раз мы берем s ( х ) = т ( F ) , плагин оценки т (θ^=s(x)θ=t(F),FxFt(F)s(x)=t(F^), с помощью эмпирического распределения F в месте F . Вероятно, это то, что вы описали выше. Во всех случаях оценка самозагрузки смещения является
б я ев Р = Е Р [ с ( х * ) ] - т ( Р ) ,
где х * являются бутстраповскими образцами от й .t(F)F^F
б I а ыF^= EF^[ s ( x*) ] - т ( F^) ,
Икс*Икс
Константа является идеальным плагиной оценкой для тех же констант:с население и образец ~ Р , эмпирическое распределение, которая приблизительно равна F . Если бы вы могли оценить t ( F ) = c , вы бы получили c . Когда вы вычисляете плагин оценки т ( F ) = C вы также получаете гр . Нет предвзятости, как и следовало ожидать.∼ F∼ F^Fт ( Ф) = сст ( Ф^) = сс
Хорошо известный случай , когда есть уклон в плагин оценки находится в оценке дисперсии, следовательно , коррекция Бесселя. Ниже я продемонстрирую это. Оценка смещения начальной загрузки не так уж и плоха:
т ( Ф^)
library(plyr)
n <- 20
data <- rnorm(n, 0, 1)
variance <- sum((data - mean(data))^2)/n
boots <- raply(1000, {
data_b <- sample(data, n, replace=T)
sum((data_b - mean(data_b))^2)/n
})
# estimated bias
mean(boots) - variance
#> [1] -0.06504726
# true bias:
((n-1)/n)*1 -1
#> [1] -0.05
Вместо этого мы могли бы взять в качестве среднего значения для населения и s ( x ) = c , ситуацию, в которой в большинстве случаев должно быть явное смещение:
т ( Ф)s ( x ) = c
library(plyr)
mu <- 3
a_constant <- 1
n <- 20
data <- rnorm(n, mu, 1)
boots <- raply(1000, {
# not necessary as we will ignore the data, but let's do it on principle
data_b <- sample(data, n, replace=T)
a_constant
})
# estimated bias
mean(boots) - mean(data)
#> [1] -1.964877
# true bias is clearly -2
Опять же, оценка начальной загрузки не так уж и плоха.