Оценка параметров нормального распределения: медиана вместо среднего?

Общий подход для оценки параметров нормального распределения заключается в использовании среднего значения и стандартного отклонения / дисперсии выборки.

Однако, если есть некоторые выбросы, медиана и срединное отклонение от медианы должны быть намного более устойчивыми, верно?

На некоторых наборах данных я пытался, нормальное распределение , оцененное $\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)$ , кажется, производит гораздо лучшее прилегание , чем классический $\mathcal{N}(\hat\mu, \hat\sigma)$ , используя среднее и Среднеквадратичное отклонение

Есть ли причина не использовать медиану, если вы предполагаете, что в наборе данных есть некоторые выбросы? Знаете ли вы некоторые ссылки для этого подхода? Быстрый поиск в Google не нашел мне полезных результатов, которые обсуждают преимущества использования медиан здесь (но очевидно, что «медиана оценки параметров нормального распределения» не очень специфический набор поисковых терминов).

Срединное отклонение, это предвзято? Должен ли я умножить его на чтобы уменьшить смещение? $\frac{n-1}{n}$

Знаете ли вы похожие подходы надежной оценки параметров для других распределений, таких как гамма-распределение или экспоненциально модифицированное гауссово распределение (которому требуется асимметрия в оценке параметров, а выбросы действительно портят это значение)?

— Эрих Шуберт
источник

Если у вас есть выбросы, возможно, ваше распределение не является гауссовским нормальным. Конечно, это не отвечает на ваш вопрос, но, IMO, это возможность, которую всегда нужно развлекать.

— SdS

У меня нет простого, чистого, математического распределения. У меня есть реальные данные, которые по природе грязны. Никакое распределение не будет идеально подходить, потому что вы не можете больше справляться с ситуацией аналитически. И выбросы на самом деле мой интерес. :-)

— Эрих Шуберт

Ответы:

Замечание, что в примере с данными, полученными из загрязненного гауссовского распределения, вы получите более точные оценки параметров, описывающих объем данных, используя вместо где это: $\text{mad}$ $\text{med}|x-\text{med}(x)|$ $\text{mad}(x)$

mad = 1.4826 \times med | x - med (x) |

$\text{mad}=1.4826\times\text{med}|x-\text{med}(x)|$

- где, - это коэффициент согласованности, разработанный для обеспечения того, чтобы когда не загрязнен, - изначально было сделано Гауссом (Уокер) H. (1931)). $(\Phi^{-1}(0.75))^{-1}=1.4826$

E (mad (x)^{2}) = Var (x)

$\text{E}(\text{mad}(x)^2)=\text{Var}(x)$

x

$x$

Я не могу думать о какой - либо причине не использовать вместо выборочного среднего в данном случае. Более низкая эффективность (по Гауссу!) может быть причиной не использовать в вашем примере. Однако существуют такие же надежные и высокоэффективные альтернативы . Одним из них является $\text{med}$ $\text{mad}$ $\text{mad}$ $\text{mad}$ $Q_n$ , Этот оценщик имеет много других преимуществ, кроме. Он также очень нечувствителен к выбросам (фактически почти так же нечувствителен, как и к безумным). Вопреки безумному, он не построен вокруг оценки местоположения и не предполагает, что распределение незагрязненной части данных симметрично. Как и сумасшедший, он основан на статистике заказов, так что он всегда четко определен, даже если в исходном распределении вашей выборки нет моментов. Как и безумный, он имеет простую явную форму. Даже больше, чем для сумасшедших, я не вижу причин использовать стандартное отклонение образца вместо в примере, который вы описываете (см. Rousseeuw и Croux 1993 для получения дополнительной информации о ). $Q_n$ $Q_n$

$x\sim\Gamma(\nu,\lambda)$

med (x) \approx λ (ν - 1 / 3)

$\text{med}(x)\approx\lambda(\nu-1/3)$

mad (x) \approx λ \sqrt{ν}

$\text{mad}(x)\approx\lambda\sqrt{\nu}$

$\nu>1.5$

\hat{ν} = {(\frac{med (x)}{mad (x)})}^{2}

$\hat{\nu}=\left(\frac{\text{med}(x)}{\text{mad}(x)}\right)^2$

\hat{λ} = \frac{mad (x)^{2}}{med (x)}

$\hat{\lambda}=\frac{\text{mad}(x)^2}{\text{med}(x)}$

См. Чен и Рубин (1986) для полного вывода.

Дж. Чен и Х. Рубин, 1986. Границы для различия между медианой и средней величиной гамма-распределения и распределения Пуассона, Statist. Вероятно. Lett., 4, 281–283.
PJ Rousseeuw и C. Croux, 1993. Альтернативы журналу «Среднее абсолютное отклонение» Американской статистической ассоциации, Vol. 88, № 424, с. 1273-1283
Уокер, Х. (1931). Исследования по истории статистического метода. Балтимор, MD: Williams & Wilkins Co. стр. 24–25.

— user603
источник

- это значение, которое нужно использовать, или одна из двух дополнительных инверсий?

Φ^{- 1} (0.75)^{- 1} \approx 1.4826

$\Phi^{-1}(0.75)^{-1} \approx 1.4826$

— Эрих Шуберт

@ErichSchubert: вы правы: я забыл второе обратное .. исправлено.

— user603

n / (n - 1)

$n/(n-1)$

@whuber: спасибо за это, теперь я понимаю, что мое предложение «это похоже по духу » может быть легко понято. Я удалил это.

— user603

Я сделал часть ExNormal отдельным вопросом: stats.stackexchange.com/questions/48907/… Но у меня есть еще один вопрос: распределение LogNormal - обработать, применив журнал, затем продолжить как обычное распределение?

— Эрих Шуберт

Если, как вы утверждаете, данные являются нормальными, за исключением некоторой небольшой доли выбросов, медиана и медиана абсолютного отклонения будут устойчивы к грубым ошибкам, но не будут очень эффективно использовать информацию в посторонних данных.

Если бы вы знали некоторые априорные ограничения на долю выбросов, вы могли бы обрезать эту пропорцию до среднего и Winsorize стандартное отклонение. Альтернативой, которая не требует таких знаний, будет использование M-оценок для определения местоположения и связанных величин для дисперсии. Повышение эффективности, если ваши предположения верны (например, данные действительно нормальные, за исключением небольшого процента выбросов), могут в некоторых случаях быть существенными.

Среднее отклонение смещено как оценка стандартного отклонения - но не как $\frac{n}{n-1}$

— Glen_b - Восстановить Монику
источник