Если среднее значение настолько чувствительно, зачем использовать его в первую очередь?


84

Это известный факт, что медиана устойчива к выбросам. Если это так, то когда и почему мы будем использовать среднее значение в первую очередь?

Возможно, я могу придумать одну вещь: понять наличие выбросов, то есть если медиана далека от среднего значения, тогда распределение искажено и, возможно, необходимо изучить данные, чтобы решить, что делать с выбросами. Есть ли другие варианты использования?


14
Что касается первого вопроса, отметим, что среднее значение в статистике - это только первый момент для населения , а медиана - нет. Стремясь использовать CLT, закон больших чисел и т. Д., Вы снова связаны с существованием конечных моментов. Хотя для примера рассмотрим распределение Коши: медиана существует, а среднего нет;)
Дмитрий Челов

2
@Dmitrij Это глубокий и проницательный ответ. Почему бы вам не уточнить это в ответе?
whuber

Если бы ты не использовал средство, ты бы обидел его чувства? (Извините, не удержался.)
Даниэль Р Хикс

3
@Daniel R Hicks: И это довольно значит, не так ли? (Извините, не смог устоять).
Мухаммед Алкарури

3
Этот вопрос гораздо интереснее, чем обычно: «Почему мы не всегда используем надежные алгоритмы?» вопрос, но может иметь то же основополагающее мышление, что и «здравый == волшебный», и если бы мы просто использовали надежные методы, нам не пришлось бы изучать наши данные, понимать их или беспокоиться о различного рода проблемах точности, поскольку они «надежный». Тем не менее +1.
Уэйн

Ответы:


113

В некотором смысле среднее значение используется, потому что оно чувствительно к данным. Если распределение оказывается симметричным, а хвосты подобны нормальному распределению, среднее значение является очень эффективным обобщением центральной тенденции. Медиана, будучи надежной и четко определенной для любого непрерывного распределения, является всего лишь такой же эффективной, как и среднее значение, если данные получены из нормального распределения. Именно эта относительная неэффективность медианы мешает нам использовать ее даже больше, чем мы. Относительная неэффективность выражается в незначительной абсолютной неэффективности, поскольку размер выборки становится большим, поэтому при больших мы можем быть более свободными от использования медианы. н2πn

Интересно отметить, что для измерения вариации (разброса, дисперсии) существует очень надежная оценка, которая на 0,98 эффективнее, чем стандартное отклонение, а именно средняя разница Джини. Это средняя абсолютная разница между любыми двумя наблюдениями. [Необходимо умножить стандартное отклонение выборки на константу, чтобы оценить ту же величину, оцененную по средней разнице Джини.] Эффективной мерой центральной тенденции является оценка Ходжса-Лемана, т. Е. Медиана всех парных средних. Мы бы использовали его больше, если бы его интерпретация была проще.


13
+1 за упоминание оценки Ходжеса-Лемана центральной тенденции. Во многих отношениях он находится между средним и срединным. Думаю, если бы было легко рассчитать в большой выборке, это было бы более популярным, чем среднее значение или медиана в качестве меры местоположения.
ttnphns

Кстати, @Frank, вы знаете, какое теоретическое распределение выборки следует центру Ходжеса-Лемана? Я не - и я интересуюсь.
ttnphns

16
Спасибо за комментарий. Один вкладыш в R может вычислить его эффективно до N = 5000: w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2. R может вызвать тривиальную программу на C, Fortran или Ratfor, чтобы она работала быстро. Пакет ICSNP в R имеет довольно эффективную реализацию со своей hl.locфункцией. Для N = 5000 он был в 2,66 раза быстрее, чем приведенный выше код (общее время 1,5 с). Было бы неплохо также получить доверительный интервал эффективно.
Фрэнк Харрелл

@FrankHarrel Что вы можете сказать об оценках и для стандартного отклонения? Какую константу я должен использовать для оценки используя среднее различие Джини для ненормальных распределений? Я не смог найти документы, описывающие процедуру вычисления этой константы в источниках открытого доступа ... Также я не нашел никакой информации об устойчивости среднего значения Джини, не могли бы вы дать представление, где ее искать? Q n σSnQnσ
Герман Демидов

1
Мы говорим о показателях дисперсии, поэтому сравнение моделей не является проблемой (и не путайте с «индексом Джини»). Средняя разница Джини является абсолютной мерой. Это легче интерпретировать, чем другие меры. Тот факт, что вам нужно будет вычислять разные константы для каждого распределения, говорит мне, что мы не хотим использовать константу.
Фрэнк Харрелл

36

Уже много хороших ответов, но, сделав шаг назад и сделав немного более простой, я бы сказал, потому что ответ, который вы получите, зависит от вопроса, который вы задаете. Среднее значение и медиана отвечают на разные вопросы - иногда один уместен, иногда другой.

Просто сказать, что медиана должна использоваться, когда есть выбросы, или для искаженных распределений, или чего-то еще. Но это не всегда так. Возьмите доход - почти всегда сообщается со средним, и обычно это правильно. Но если вы смотрите на покупательную способность целого сообщества, это может быть неправильно. А в некоторых случаях даже режим может быть лучшим (особенно если данные сгруппированы).


8
+1 за очевидный момент, к которому никто, похоже, не обращался: это разные понятия и ответы на разные вопросы. Кроме того, во многих случаях многое теряется при сведении всего распределения в одно итоговое число, поэтому иногда они оба выполняют паршивую работу.
Майкл МакГоуэн

25

Когда значение для нас является мусором, мы называем его «внешним» и хотим, чтобы анализ был надежным (и предпочитаем медиану); когда это же значение является привлекательным, мы называем его «экстремальным» и хотим, чтобы анализ был чувствительным к нему (и предпочитаем среднее значение). Диалектика...

Среднее значение одинаково реагирует на изменение значения независимо от того, где в распределении происходит смещение. Например, у 1 2 3 4 5вас может увеличиться любое значение на 2 - увеличение среднего будет таким же. Реакция медианы менее «последовательна»: добавьте 2 к точкам данных 4 или 5, и медиана не увеличится; но добавьте 2 к пункту 2, чтобы смещение превысило медиану, а медиана резко изменилась (значительно больше, чем изменится среднее значение).

Среднее всегда точно находится. Медиана не является; например, в наборе 1 2 3 4 любое значение от 2 до 3 можно назвать медианой. Таким образом, анализы, основанные на медиане, не всегда являются уникальным решением.

Среднее - это местоположение минимальной суммы квадратов отклонений. Многие задачи оптимизации, основанные на линейной алгебре (включая известную регрессию OLS), минимизируют эту квадратичную ошибку и, следовательно, подразумевают понятие среднего. Медиана локус минимальной суммы абсолютных отклонений. Методы оптимизации для минимизации такой ошибки являются нелинейными и более сложными / малоизвестными.


2
+1 Я немного обеспокоен тем, что первый абзац может быть неправильно понят, поскольку подразумевается, что обнаружение выброса является полностью субъективным процессом. Я не думаю, что вы хотите это подразумевать.
whuber

8
+1 | Я думаю, что первое предложение подразумевает, что применение обнаружения выбросов является полностью субъективным, и поэтому я голосую за то, чтобы сохранить как есть.
Джон

2
Я имел в виду, что внешнее обнаружение - это строгая процедура с субъективными философскими или моральными корнями
ttnphns

3
@ttnphns, написание "outliar" вместо "outlier" является намеренным или нет?
mpiktas

1
Непреднамеренная опечатка.
ttnphns

16

Есть много ответов на этот вопрос. Вот тот, который вы, вероятно, не увидите в другом месте, поэтому я включил его сюда, потому что я считаю, что он имеет отношение к теме. Люди часто полагают, что, поскольку медиана считается надежной мерой по отношению к выбросам, она также является устойчивой почти ко всему. На самом деле, он также считается устойчивым к смещению в искаженных дистрибутивах. Эти два надежных свойства медианы часто преподаются вместе. Можно отметить, что лежащие в основе искаженные распределения также имеют тенденцию генерировать небольшие выборки, которые выглядят так, как будто они имеют выбросы, и общепринятым считается, что в таких ситуациях используют медианы.

#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
    rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
    }

(просто демонстрация того, что это перекос и основная форма)

hist(rexg(1e4, 0, 1, 1))

участок

Теперь давайте посмотрим, что произойдет, если мы выберем из этого распределения выборки разных размеров, вычислим медиану и хотим увидеть, каковы различия между ними.

#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red') 
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)

Plot2

Как видно из приведенного выше графика, медиана (в красном) гораздо более чувствительна к n, чем среднее значение. Это противоречит некоторому общепринятому мнению относительно использования медиан с низким ns, особенно если распределение может быть искажено. И это подтверждает точку зрения, что среднее значение является известным значением, а медиана чувствительна к другим свойствам, одним из которых является n.

Этот анализ похож на Miller, J. (1988). Предупреждение о среднем времени реакции. Журнал экспериментальной психологии: восприятие и поведение человека , 14 (3): 539–543.

ПЕРЕСМОТР

Подумав о проблеме перекоса, я подумал, что влияние на медиану может быть просто потому, что в небольших выборках у вас больше вероятность того, что медиана находится в хвосте распределения, тогда как среднее значение почти всегда будет взвешиваться значениями, близкими к Режим. Поэтому, возможно, если бы кто-то просто делал выборку с вероятностью выбросов, то, возможно, были бы такие же результаты.

Поэтому я подумал о ситуациях, в которых могут возникать выбросы, и экспериментаторы могут пытаться их устранить.

Если выбросы происходили последовательно, например, один в каждой выборке данных, то медианы являются устойчивыми к воздействию этого выброса, и традиционная история об использовании медиан сохраняется.

Но обычно это не так.

Можно найти выброс в очень немногих ячейках эксперимента и решить использовать медиану вместо среднего в этом случае. Опять же, медиана является более устойчивой, но ее фактическое воздействие относительно невелико, поскольку выбросов очень мало. Это определенно более распространенный случай, чем приведенный выше, но эффект от использования медианы, вероятно, будет настолько мал, что это не будет иметь большого значения.

Возможно, чаще всего выбросы могут быть случайным компонентом данных. Например, истинное среднее значение и стандартное отклонение популяции могут быть около 0, но есть процент времени, когда мы выбираем выборку из популяции, где среднее значение равно 3. Рассмотрим следующую симуляцию, где отбирается только такая популяция, варьируя выборку. размер.

#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
    outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
    numOutliers <- sum(outPos)
    y <- matrix( rnorm(N*n), ncol = N )
    y[which(outPos==1)] <- rnorm(numOutliers, 4)
    return(y)
    }

outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red') 
lines(ns,yM)

Результаты

Медиана красного цвета и среднего черного цвета. Это аналогично тому, что получено в искаженном распределении.

В относительно практическом примере использования медиан для избежания влияния выбросов можно столкнуться с ситуациями, когда на оценку влияет n гораздо больше, когда используется медиана, чем когда используется среднее значение.


Хороший пример, но это действительно зависит от дистрибутива. Если вы используете нормальное распределение или равномерное распределение, график будет сильно отличаться с наложением двух линий. Это экспоненциальное распределение, которое производит разницу.
Нико

1
-1 Этот ответ путает «чувствительность» с «предвзятостью».
whuber

4
Намного лучше; Я убрал понижающий голос. Но я заинтригован новым объяснением: не могли бы вы указать какой-то источник - текст, бумагу или веб-сайт - который фактически делает утверждение «[медиана] также считается устойчивым к смещению в искаженных дистрибутивах» и объясняет что это может значить? Я не сталкивался с таким требованием раньше и не уверен, что он на самом деле говорит.
whuber

3
Это больше народных знаний для того, чтобы иметь дело со временем реакции (известно, что оно искажено) в психологических исследованиях. Я вставил ссылку на статью, которая опровергает народную мудрость в психологии (на которую я не согласен ранее).
Джон

3
Кстати, несмотря на статью Миллера (1988), люди все еще используют среднее время реакции в исследованиях с вероятностными манипуляциями, когда условия имеют разное количество выборок, а нижняя обычно довольно мала.
Джон

11
  • Из среднего значения легко рассчитать сумму по всем статьям, например, если вы знаете средний доход населения и численность населения, вы можете сразу рассчитать общий доход всего населения.

  • Среднее значение легко вычислить по O(n)временной сложности. Вычисление медианы в линейном времени возможно, но требует больше размышлений. Очевидное решение, требующее сортировки, имеет худшую ( O(n log n)) временную сложность.

И я предполагаю, что есть еще одна причина, по которой среднее значение более популярно, чем медиана:

  • Среднее значение преподается большему количеству людей в школе, и, вероятно, оно преподается до обучения медиане

Для вашей временной сложности это зависит от того, как хранятся значения. Если значения уже отсортированы, то, безусловно, можно рассчитать медиану в O (1) наихудшей временной сложности.
luiscubal

Я согласен - его применимость в вычислениях, таких как суммы, является одним из основных преимуществ среднего. Хотя я часто предпочитаю медиану, когда цель состоит в том, чтобы описать что-то, мы часто используем среднее значение, когда оно является входом для другого вычисления.
Джонатан

5

«Известно, что медиана устойчива к выбросам. Если это так, то когда и почему мы будем использовать среднее значение в первую очередь?»

В случаях, когда известно, что нет выбросов, например, когда известен процесс генерирования данных (например, в математической статистике).

Следует отметить тривиальное, что эти две величины (среднее и медианное) на самом деле не измеряют одно и то же, и что большинство пользователей спрашивают первое, когда то, что им действительно должно быть интересно во втором (этот момент хорошо иллюстрируется основанные на медиане критерии Вилкоксона, которые интерпретируются легче, чем t-тесты).

Затем, есть случаи, когда по какой-то причине случайности или иным образом, какое-то регулирование навязывает использование им среднего значения.


2

Если проблема связана с наличием выбросов, есть несколько простых способов проверить ваши данные.

Выбросы, почти по определению, входят в наши данные, когда что-то меняется либо в процессе, генерирующем данные, либо в процессе, собирающем данные. т.е. данные перестают быть однородными. Если ваши данные не являются однородными, то ни среднее, ни среднее значение не имеют большого смысла, поскольку вы пытаетесь оценить центральную тенденцию двух отдельных наборов данных, которые были смешаны вместе.

Лучший способ обеспечить однородность - это изучить процессы генерации и сбора данных, чтобы убедиться, что все ваши данные поступают из одного набора процессов. Здесь ничто не сравнится с умом.

В качестве дополнительной проверки вы можете обратиться к одному из нескольких статистических тестов: хи-квадрат, Q-тест Диксона, тест Грубба или контрольная диаграмма / диаграмма поведения процесса (обычно X-bar R или XmR). По моему опыту, когда ваши данные можно упорядочить в том виде, в котором они были собраны, диаграммы поведения процесса лучше обнаруживают выбросы, чем тесты выбросов. Это использование графиков может быть несколько спорным, но я считаю, что оно полностью соответствует первоначальному замыслу Шухарта, и это использование явно защищено Дональдом Уилером. Независимо от того, используете ли вы тесты выбросов или графики поведения процесса, помните, что обнаруженный «выброс» является просто сигнальным потенциаломнеоднородность, которая требует дальнейшего изучения. Редко имеет смысл выбрасывать точки данных, если у вас нет объяснения, почему они были выбросами.

Если вы используете R, пакет выбросов предоставляет тесты выбросов, а для диаграмм поведения процессов - qcc , IQCC и qAnalyst. У меня есть личные предпочтения по использованию и выводу пакета qcc.


2

Когда вы могли бы хотеть среднее?

Примеры из финансов:

  • Бонд возвращается:
    • Средний доход по облигациям обычно составляет несколько процентных пунктов.
    • Средняя доходность облигации может быть низкой или высокой в ​​зависимости от ставки по умолчанию и восстановления по умолчанию. Медиана будет игнорировать все это!
    • Удачи, объясняющей вашим инвесторам: «Я знаю, что наш фонд упал на 40% в этом году, потому что почти половина облигаций обанкротилась без восстановления, но наша средняя облигация вернулась на 1%!»
  • Венчурный капитал возвращается:
    • То же самое в обратном порядке. Среднее венчурное капиталовложение или ангельские инвестиции - это банкротство, а вся прибыль приходит от нескольких победителей! (Примечание / предупреждение: оценка венчурного капитала или доходов от прямых инвестиций весьма проблематична ... будьте осторожны!)

При формировании диверсифицированного портфеля, решения, во что и в какую сумму вкладывать средства, среднее значение и ковариация прибыли, вероятно, будут иметь большое значение для вашей проблемы оптимизации.


Согласен, но кажется, что среднее значение или медиана не является фокусом ни в одной из этих ситуаций: скорее, итоговые значения могут быть ключевыми величинами. Естественно, это, в свою очередь, означает, что средние значения лучше, чем медианы. Но при условии, что медианный возврат облигаций может быть глупым ответом, но кто-нибудь предлагает это?
Ник Кокс,

@NickCox Два комментария. (1) То, что возвращение медианной связи глупо, это главное! В этих ответах есть отличная теория, но я подумал, что очень простой пример может добавить немного цвета. Чтобы процитировать ответ Фрэнка, «среднее значение используется, потому что оно чувствительно к данным», а возврат портфеля дает простую, понятную ситуацию, когда вы этого захотите. (2) Различие между заботой об «общем» и заботой о «среднем» может быть довольно туманным. "Должен ли я инвестировать в хедж-фонд?" Чтобы ответить на этот вопрос, возможно, я хотел бы знать, «каков средний доход хедж-фондов?»
Мэтью Ганн

1
(1) Я согласен, как сказано; у меня вопрос только в том, упоминается ли медиана серьезно в учебной или исследовательской литературе для этой цели. (2) я не думаю, что моя точка зрения туманна; это простой вопрос о том, что на первом месте, то есть практически представляет первостепенный интерес. Я вижу заголовки "банда заключена в тюрьму на 200 лет", и я знаю, почему они напечатаны, но, тем не менее, это странный способ подведения итогов. И наоборот, 200 погибших в результате серии стихийных бедствий являются первичными, а не 5 катастроф, в среднем по 40 погибших в каждой. (Небольшая) проблема заключается в выборе наиболее краткого изложения.
Ник Кокс,

@NickCox Точка занята. Я согласен, что вы заботитесь о сумме ваших собственных инвестиций. При формировании портфеля и определении веса портфеля по конкретным ценным бумагам вы будете заботиться о свойствах доходности этой ценной бумаги. Я не собираюсь покупать ВСЕ муниципальные облигации, меня напрямую не волнует общая сумма, но меня волнует, какова средняя доходность муниципальных облигаций? Каковы свойства риска / доходности, если я добавлю несколько в свой портфель?
Мэтью Ганн

Согласовано. Это территория здесь.
Ник Кокс,
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.