Для каких (симметричных) распределений выборка означает более эффективную оценку, чем выборка медианы?


17

Я работал, полагая, что медиана выборки является более надежной мерой центральной тенденции, чем средняя выборка, поскольку она игнорирует выбросы. Поэтому я был удивлен, узнав (в ответе на другой вопрос ), что для выборок, взятых из нормального распределения, дисперсия среднего значения выборки меньше, чем дисперсия медианы выборки (по крайней мере для больших n ).

Я математически понимаю, почему это так. Есть ли «философский» способ взглянуть на это, который поможет интуитивно понять, когда следует использовать медиану, а не среднее значение для других распределений?

Существуют ли математические инструменты, которые помогают быстро ответить на вопрос для конкретного распределения?

Ответы:


20

Давайте предположим, что мы ограничиваем рассмотрение симметричными распределениями, где среднее значение и дисперсия конечны (поэтому Коши, например, исключен из рассмотрения).

Кроме того, я собираюсь ограничиться первоначально непрерывными унимодальными случаями, и, в основном, «приятными» ситуациями (хотя я мог бы вернуться позже и обсудить некоторые другие случаи).

Относительная дисперсия зависит от размера выборки. Обычно обсуждается соотношение ( умноженное на) асимптотических дисперсий, но мы должны помнить, что при меньших размерах выборки ситуация будет несколько иной. (Медиана иногда оказывается заметно лучше или хуже, чем можно предположить по ее асимптотическому поведению. Например, при норме с n = 3 она имеет эффективность около 74%, а не 63%. Асимптотическое поведение обычно является хорошим ориентиром при довольно умеренных размеры выборки, хотя.)nn=3

С асимптотикой довольно легко справиться:

Среднее значение: дисперсия = σ 2 .n×σ2

Медиана : дисперсия = 1n× гдеf(m)- высота плотности в медиане.1[4f(m)2]f(m)

Так что, если , медиана будет асимптотически более эффективной.е(м)>12σ

[В обычном случае , так что1е(м)знак равно12πσ , откуда асимптотическая относительная эффективность2/π)]1[4е(м)2]знак равноπσ222/π

Мы можем видеть, что дисперсия медианы будет зависеть от поведения плотности очень близко к центру, в то время как дисперсия среднего зависит от дисперсии исходного распределения (на которое в некотором смысле влияет плотность везде, и в в частности, более того, как он ведет себя дальше от центра)

То есть, в то время как медиана меньше подвержена влиянию выбросов, чем среднее значение, и мы часто видим, что оно имеет меньшую дисперсию, чем среднее значение, когда распределение имеет сильные хвосты (что приводит к большему количеству выбросов), что на самом деле влияет на производительность Медиана является внутренним . Часто бывает, что (для фиксированной дисперсии) есть тенденция к тому, чтобы двое шли вместе.

То есть, по большому счету , по мере того, как хвост становится более тяжелым, существует тенденция (при фиксированном значении ) к распределению, которое становится «пиковым» в одно и то же время (более куртозное, в широком смысле). Это, однако, не определенная вещь - это имеет место в широком диапазоне обычно рассматриваемых плотностей, но это не всегда верно. Когда оно действительно выполняется, дисперсия медианы будет уменьшаться (поскольку распределение имеет большую вероятность в непосредственной близости от медианы), тогда как дисперсия среднего значения остается постоянной (потому что мы зафиксировали σ 2 ).σ2σ2

Таким образом, в целом ряде общих случаев медиана часто имеет тенденцию работать «лучше», чем среднее значение, когда хвост тяжелый, (но мы должны помнить, что сравнительные примеры сравнительно легко построить). Таким образом, мы можем рассмотреть несколько случаев, которые могут показать нам то, что мы часто видим, но мы не должны читать слишком много в них, потому что более тяжелый хвост не всегда идет с более высоким пиком.

Мы знаем, что медиана примерно на 63,7% эффективнее (для больших), чем среднее значение для нормали.N

Как насчет, скажем, логистического распределения, которое подобно нормали приблизительно параболично относительно центра, но имеет более тяжелые хвосты (когда становится большим, они становятся экспоненциальными).Икс

π2/314е(м)2знак равно4π2/120,82

Давайте рассмотрим две другие плотности с экспоненциально-подобными хвостами, но с разной остротой.

сечь12Nзнак равно5

Здесь мы можем видеть, как, когда мы продвигаемся через эти три плотности (держа постоянную дисперсии), что высота в медиане увеличивается:

введите описание изображения здесь

1212

Если мы сделаем распределение еще более пиковым для данной дисперсии (возможно, сделав хвост более тяжелым, чем экспоненциальный), медиана может быть гораздо более эффективной (условно говоря). На самом деле нет предела тому, как высоко может подниматься этот пик.

νзнак равно5

...

При конечных размерах выборки иногда возможно явно вычислить дисперсию распределения медианы. Там, где это невозможно - или даже просто неудобно - мы можем использовать симуляцию для вычисления дисперсии медианы (или отношения дисперсии *) по случайным выборкам, взятым из распределения (что я и сделал, чтобы получить маленькие цифры выборки выше ).

* Несмотря на то, что нам часто не нужна дисперсия среднего значения, поскольку мы можем вычислить ее, если знаем дисперсию распределения, это может быть более вычислительно эффективным, поскольку она действует как управляющая переменная (среднее значение). и медиана часто довольно коррелируют).


1

е(Икс)знак равно12е-|Икс-μ|,-<Икс<
μИкс1,Икс2,...,ИксN2/N14Nе(μ)2знак равно14N/4знак равно1/N<2/N

σ2знак равно11/NN14N(1/2π)2знак равноπ2N1,57/N>1/N

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.