Раздел 1.7.2 Обнаружения Статистики Используя R Энди Филдсом и др., Перечисляя достоинства среднего значения по отношению к медиане, утверждает:
... среднее значение стабильно в разных выборках.
Это после объяснения многих достоинств медианы, например,
... Медиана относительно не зависит от экстремальных показателей на обоих концах распределения ...
Учитывая, что медиана относительно не зависит от экстремальных показателей, я бы подумал, что она будет более стабильной во всех выборках. Поэтому я был озадачен утверждением авторов. Чтобы подтвердить, что я запустил симуляцию - я сгенерировал 1M случайных чисел и 1000 раз выбрал 100 чисел, вычислил среднее значение и медиану каждой выборки, а затем вычислил sd этих выборочных средних и медиан.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Как видите, средства распределены более плотно, чем медианы.
На прилагаемом изображении красная гистограмма для медиан - как вы можете видеть, она менее высокая и имеет более толстый хвост, что также подтверждает утверждение автора.
Я потрясен этим, хотя! Как медиана, которая является более стабильной, может в конечном итоге варьироваться в зависимости от выборки? Это кажется парадоксальным! Любые идеи будут оценены.
rnorm
на rcauchy
.