Стандартная ошибка медианы


14

Правильна ли следующая формула, если я хочу измерить стандартную ошибку медианы в случае небольшой выборки с ненормальным распределением (я использую python)?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)

Ответы:


12

Основываясь на некоторых комментариях @ mary, я думаю, что следующее уместно. Кажется, она выбирает медиану, потому что выборка маленькая.

Если вы выбираете медиану, потому что это небольшая выборка, это не является хорошим оправданием. Вы выбираете медиану, потому что медиана является важным значением. Это говорит что-то отличное от среднего. Вы также можете выбрать его для некоторых статистических расчетов, потому что он устойчив к определенным проблемам, таким как выбросы или перекос. Тем не менее, небольшой размер выборки не является одной из тех проблем, против которых он устойчив. Например, когда размер выборки становится меньше, он на самом деле намного более чувствителен к перекосу, чем среднее значение.


Спасибо Джон! На самом деле я решил использовать медиану вместо среднего по той причине, которую вы только что написали. У меня разные образцы, все они имеют негауссовское распределение. Есть примеры, содержащие более 50 баллов, другие содержат менее 10 баллов, но я думаю, что для всех них ваш комментарий действителен, не так ли?
мэри

С таким небольшим количеством пунктов я не уверен, что вы можете сказать о базовом дистрибутиве. Если вы сравниваете выборки, содержащие менее 10, с выборками, содержащими 50, а базовое распределение не симметрично, медиана покажет эффект, даже если его нет, потому что в маленькой выборке будет больше смещения, чем в большой. Значит не будет.
Джон

В будущем уточните свои вопросы и спросите больше о том, что вам действительно нужно знать. Скажите, почему вы сделали то, что вы сделали до сих пор, и опишите данные, которые у вас есть хорошо. Вы получите гораздо лучшие ответы.
Джон

1
« малый размер выборки не является одной из тех проблем, против которых он устойчив », стоит +1 сам по себе; остальное бонус
Glen_b

На самом деле, Хубер подчеркивает в своей книге, что нет единой концепции надежности. Существует устойчивость к выбросам (и это то, для чего медиана надежна). Другое представление, однако, является устойчивостью к ошибке измерения, и это то, для чего среднее значение является устойчивым, поскольку оно усредняет эти ошибки измерения. Медиана, однако, очень восприимчива к колебаниям ошибки измерения, поскольку они могут влиять на середину распределения так же сильно, как и хвосты.
StasK

12

Сокаль и Рольф приводят эту формулу в своей книге « Биометрия» (стр. 139). В разделе «Комментарии о применимости» они пишут: Большие выборки из нормальных популяций. Таким образом, я боюсь, что ответ на ваш вопрос - нет. Смотрите также здесь .

Одним из способов получения стандартных ошибок и доверительных интервалов для медианы в небольших выборках с ненормальными распределениями является начальная загрузка. Этот пост содержит ссылки на пакеты Python для начальной загрузки.

Предупреждение

@whuber указал, что начальная загрузка медианы в небольших выборках не очень информативна, так как обоснование начальной загрузки является асимптотическим (см. комментарии ниже).


спасибо за Ваш ответ! Я знаю, что альтернативой будет самозагрузка, я просто догадывался, есть ли способ измерить ошибку медианы другим способом. Ответ «нет» также для стандартной ошибки в MEAN (такая же небольшая негауссова выборка)?
мэри

@mary Для стандартной ошибки среднего Сокаль и Рол пишут, что она применима для «[...] любой популяции с конечной дисперсией». Таким образом, ответ на стандартную ошибку среднего, кажется, да, вы можете рассчитать его. Обозначение: хотя есть распределения (например, распределение Коши), которые не имеют определенной дисперсии или среднего значения, и в таких случаях SEM не может быть рассчитана.
COOLSerdash

5
TT

@whuber Спасибо за ваш комментарий. Это хорошо знать. Я удалил из моего ответа совет по начальной загрузке медианы в небольших выборках.
COOLSerdash

1
Я не пытался предположить, что это плохой совет: я только хотел указать на его (неизбежные) ограничения. Учиться многому из маленьких образцов сложно. Но начальная загрузка небольших выборок вдвойне чревата, потому что нет теоретического обоснования, подтверждающего это (все обоснование асимптотическое).
whuber

12

As.Var.[m^]=14f(m)2n
mf(m)

m^

  1. Что асимптотическая формула для дисперсии работает для небольшой выборки;
  2. Что предполагаемая медиана достаточно близка к истинной медиане;
  3. Что оценщик плотности ядра дает точное значение.

Чем меньше размер выборки, тем более сомнительной она становится.


3
π21.253314
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.