Есть много ответов на этот вопрос. Вот тот, который вы, вероятно, не увидите в другом месте, поэтому я включил его сюда, потому что я считаю, что он имеет отношение к теме. Люди часто полагают, что, поскольку медиана считается надежной мерой по отношению к выбросам, она также является устойчивой почти ко всему. На самом деле, он также считается устойчивым к смещению в искаженных дистрибутивах. Эти два надежных свойства медианы часто преподаются вместе. Можно отметить, что лежащие в основе искаженные распределения также имеют тенденцию генерировать небольшие выборки, которые выглядят так, как будто они имеют выбросы, и общепринятым считается, что в таких ситуациях используют медианы.
#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
}
(просто демонстрация того, что это перекос и основная форма)
hist(rexg(1e4, 0, 1, 1))
Теперь давайте посмотрим, что произойдет, если мы выберем из этого распределения выборки разных размеров, вычислим медиану и хотим увидеть, каковы различия между ними.
#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red')
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)
Как видно из приведенного выше графика, медиана (в красном) гораздо более чувствительна к n, чем среднее значение. Это противоречит некоторому общепринятому мнению относительно использования медиан с низким ns, особенно если распределение может быть искажено. И это подтверждает точку зрения, что среднее значение является известным значением, а медиана чувствительна к другим свойствам, одним из которых является n.
Этот анализ похож на Miller, J. (1988). Предупреждение о среднем времени реакции. Журнал экспериментальной психологии: восприятие и поведение человека , 14 (3): 539–543.
ПЕРЕСМОТР
Подумав о проблеме перекоса, я подумал, что влияние на медиану может быть просто потому, что в небольших выборках у вас больше вероятность того, что медиана находится в хвосте распределения, тогда как среднее значение почти всегда будет взвешиваться значениями, близкими к Режим. Поэтому, возможно, если бы кто-то просто делал выборку с вероятностью выбросов, то, возможно, были бы такие же результаты.
Поэтому я подумал о ситуациях, в которых могут возникать выбросы, и экспериментаторы могут пытаться их устранить.
Если выбросы происходили последовательно, например, один в каждой выборке данных, то медианы являются устойчивыми к воздействию этого выброса, и традиционная история об использовании медиан сохраняется.
Но обычно это не так.
Можно найти выброс в очень немногих ячейках эксперимента и решить использовать медиану вместо среднего в этом случае. Опять же, медиана является более устойчивой, но ее фактическое воздействие относительно невелико, поскольку выбросов очень мало. Это определенно более распространенный случай, чем приведенный выше, но эффект от использования медианы, вероятно, будет настолько мал, что это не будет иметь большого значения.
Возможно, чаще всего выбросы могут быть случайным компонентом данных. Например, истинное среднее значение и стандартное отклонение популяции могут быть около 0, но есть процент времени, когда мы выбираем выборку из популяции, где среднее значение равно 3. Рассмотрим следующую симуляцию, где отбирается только такая популяция, варьируя выборку. размер.
#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
numOutliers <- sum(outPos)
y <- matrix( rnorm(N*n), ncol = N )
y[which(outPos==1)] <- rnorm(numOutliers, 4)
return(y)
}
outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red')
lines(ns,yM)
Медиана красного цвета и среднего черного цвета. Это аналогично тому, что получено в искаженном распределении.
В относительно практическом примере использования медиан для избежания влияния выбросов можно столкнуться с ситуациями, когда на оценку влияет n гораздо больше, когда используется медиана, чем когда используется среднее значение.