Почему среднее значение более стабильно в разных выборках, чем в среднем?

22

Раздел 1.7.2 Обнаружения Статистики Используя R Энди Филдсом и др., Перечисляя достоинства среднего значения по отношению к медиане, утверждает:

... среднее значение стабильно в разных выборках.

Это после объяснения многих достоинств медианы, например,

... Медиана относительно не зависит от экстремальных показателей на обоих концах распределения ...

Учитывая, что медиана относительно не зависит от экстремальных показателей, я бы подумал, что она будет более стабильной во всех выборках. Поэтому я был озадачен утверждением авторов. Чтобы подтвердить, что я запустил симуляцию - я сгенерировал 1M случайных чисел и 1000 раз выбрал 100 чисел, вычислил среднее значение и медиану каждой выборки, а затем вычислил sd этих выборочных средних и медиан.

nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)

Как видите, средства распределены более плотно, чем медианы.

На прилагаемом изображении красная гистограмма для медиан - как вы можете видеть, она менее высокая и имеет более толстый хвост, что также подтверждает утверждение автора.

Я потрясен этим, хотя! Как медиана, которая является более стабильной, может в конечном итоге варьироваться в зависимости от выборки? Это кажется парадоксальным! Любые идеи будут оценены.

mean median

— Алок Лал
источник

1

Да, но попробуйте это путем выборки из чисел <- rt (n = 10 ** 6, 1,1). Это распределение t1.1 даст набор экстремальных значений, не обязательно сбалансированных между положительным и отрицательным (такой же хороший шанс получить другое положительное экстремальное значение, как отрицательное экстремальное значение для баланса), что приведет к гигантской дисперсии . Это то, против чего выступает медиана. Нормальное распределение вряд ли даст какие-либо особенно экстремальные значения, чтобы растянуть распределение шире, чем медиана.

\bar{x}

$\bar{x}$

\bar{x}

$\bar{x}$

— Дейв

10

Заявление автора в целом не соответствует действительности. (Мы получили здесь много вопросов, связанных с ошибками в книгах этого автора, поэтому это не удивительно.) Стандартные контрпримеры можно найти среди «стабильных распределений» , где среднее значение не является «стабильным» (в любом разумном смысле этого слова). термин) и медиана гораздо стабильнее.

— whuber

1

«... среднее значение имеет тенденцию быть стабильным в разных выборках». это бессмысленное утверждение. «стабильность» не очень хорошо определена. Среднее (выборочное) действительно достаточно стабильно в одной выборке, потому что это неслучайная величина. Если данные «нестабильны» (сильно изменчивы?), То значение также «нестабильно».

— AdamO

1

На этот вопрос, скорее всего, ответят подробные анализы, предлагаемые по адресу stats.stackexchange.com/questions/7307 , в которых тот же вопрос задается особым образом (где смысл «стабильный» четко определен).

— whuber

2

Попробуйте заменить rnormна rcauchy.

— Эрик Тауэрс

3

Медиана максимально устойчива к выбросам, но очень восприимчива к шуму. Если вы вводите небольшое количество шума в каждую точку, она будет вводить медиану без ослабления, пока шум достаточно мал, чтобы не изменить относительный порядок точек. Для среднего это наоборот. Шум усредняется, но один выброс может изменить среднее значение произвольно.

Ваш тест в основном измеряет устойчивость к шуму, но вы можете легко создать тест, в котором медиана работает лучше. Если вы хотите, чтобы оценка была устойчивой к выбросам и шуму, просто отбросьте верхнюю и нижнюю треть и усредните остаток.

— Райнер П.
источник

Есть ли более конкретное имя для этого алгоритма, чем « среднее значение, усеченное на 33% »?

— Дэвид Кэри

25

Как сказали @whuber и другие, это утверждение в целом неверно. И если вы хотите быть более интуитивным - я не могу идти в ногу с глубокими математическими вундеркиндами здесь - вы можете посмотреть на другие способы, означающие, что медиана стабильна или нет. В этих примерах допустим нечетное количество баллов, чтобы мои описания были последовательными и простыми.

Представьте, что у вас есть разброс точек на числовой линии. Теперь представьте, что вы берете все точки выше середины и увеличиваете их в 10 раз. Медиана не изменилась, среднее значение значительно изменилось. Таким образом, медиана кажется более стабильной.
Теперь представьте, что эти точки довольно распространены. Переместите центральную точку вверх и вниз. Движение на одну единицу изменяет медиану на единицу, но едва сдвигает среднее. Медиана теперь кажется менее стабильной и более чувствительной к небольшим движениям одной точки.
Теперь представьте, что вы берете наивысшую точку и плавно перемещаете ее из самой высокой в самую низкую точку. Среднее также будет плавно двигаться. Но медиана не будет двигаться непрерывно: она вообще не будет двигаться, пока ваша верхняя точка не станет ниже предыдущей медианы, затем она начнет следовать за точкой, пока не опустится ниже следующей точки, затем медиана прилипнет к этой точке и снова не Не двигайтесь, продолжая двигать свою точку вниз. [Отредактировано за комментарий]

Таким образом, различные преобразования ваших точек приводят к тому, что среднее или медианное значение в некотором смысле выглядит менее плавным или стабильным. Здесь математики-хитчеры показали вам дистрибутивы, из которых вы можете выбирать, которые более точно соответствуют вашему эксперименту, но, надеюсь, эта интуиция также поможет.

— Wayne
источник

1

Относительно пункта 3: не будет ли медиана также двигаться плавно? Скажем, начальный набор точек [1, 3, 5, 7, 9]. Изначально медиана есть 5. Это будет оставаться медианой до тех пор, пока пятая точка (изначально 9) не опустится ниже 5, после чего медиана будет плавно следовать пятой точке по мере ее уменьшения, пока не достигнет точки 3, в которой медиана останется 3. Таким образом, даже если точка, определяющая медиану, «прыгает» (из третьей точки в пятую точку во вторую точку), действительное значение медианы не имеет скачка / разрыва.

— Скотт М

@ СкоттМ Кажется, ты прав. Не уверен, почему я думал, что это прыгнет. Я перефразирую, когда у меня будет шанс.

— Уэйн

18

$n$ $\mu$ $\sigma^2 < \infty$ $f$ $m$ $\tilde{f}$ $\tilde{f}(z) = \sigma \cdot f(\mu+\sigma z)$ $z \in \mathbb{R}$ , Асимптотическая дисперсия среднего значения выборки и медианы выборки определяется соответственно как:

В ({\bar{Икс}}_{N}) знак равно \frac{σ^{2}}{N} В ({\tilde{Икс}}_{N}) \to \frac{σ^{2}}{N} \cdot \frac{1}{4} \cdot \tilde{е} (\frac{м - μ}{σ})^{- 2},

$\mathbb{V}(\bar{X}_n) = \frac{\sigma^2}{n} \quad \quad \quad \quad \quad \mathbb{V}(\tilde{X}_n) \rightarrow \frac{\sigma^2}{n} \cdot \frac{1}{4} \cdot \tilde{f}\Big( \frac{m-\mu}{\sigma} \Big)^{-2}.$

Поэтому мы имеем:

\frac{В ({\bar{Икс}}_{N})}{В ({\tilde{Икс}}_{N})} \to 4 \cdot \tilde{е} (\frac{м - μ}{σ})^{2},

$\frac{\mathbb{V}(\bar{X}_n)}{\mathbb{V}(\tilde{X}_n)} \rightarrow 4 \cdot \tilde{f}\Big( \frac{m-\mu}{\sigma} \Big)^2.$

$n$

В ({\bar{Икс}}_{N}) < В ({\tilde{Икс}}_{N}) ⟺ е_{*} \equiv \tilde{е} (\frac{м - μ}{σ}) < \frac{1}{2},

$\mathbb{V}(\bar{X}_n) < \mathbb{V}(\tilde{X}_n) \quad \quad \iff \quad \quad f_* \equiv \tilde{f} \Big( \frac{m-\mu}{\sigma} \Big) < \frac{1}{2}.$

$n$ $f_* = 1 / \sqrt{2 \pi} = 0.3989423 < 1/2$

— Восстановить Монику
источник

Потрясающе! Спасибо.

— Алок Лал

4

Комментарий: просто чтобы повторить вашу симуляцию, используя распределение, для которого SD средних и медианы дают противоположный результат:

В частности, numsтеперь из распределения Лапласа (также называемого «двойная экспонента»), которое можно смоделировать как разность двух экспоненциальных распределений с одинаковой скоростью (здесь скорость по умолчанию 1). [Возможно, смотрите Википедию о распределениях Лапласа.]

set.seed(2019)
nums = rexp(10^6) - rexp(10^6)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10^3) { b = sample(x=nums, 10^2); 
  medians[i]= median(b); means[i]=mean(b) }
sd(means)
[1] 0.1442126
sd(medians)
[1] 0.1095946   # <-- smaller

hist(nums, prob=T, br=70, ylim=c(0,.5),  col="skyblue2")
 curve(.5*exp(-abs(x)), add=T, col="red")

Примечание. Еще одна простая возможность, явно упоминаемая в ссылке @ whuber, - Коши, которую можно смоделировать как t-распределение Стьюдента с одной степенью свободы rt(10^6, 1). Однако его хвосты настолько тяжелы, что создать хорошую гистограмму проблематично.

— BruceET
источник