Среднее и Медианное свойства


18

Может кто-нибудь объяснить мне ясную математическую логику, которая связывает два утверждения (а) и (б) вместе? Давайте иметь набор значений (некоторое распределение). Сейчас,

а) Медиана не зависит от каждого значения [оно зависит только от одного или двух средних значений]; б) Медиана - это локус минимальной суммы абсолютных отклонений от нее.

И аналогично, и наоборот,

а) (арифметическое) среднее зависит от каждого значения; б) Среднее - это место минимальной суммы квадратов отклонений от него.

Мое понимание этого пока интуитивно понятно.


1
Стоит ознакомиться с более старой версией того же вопроса: stats.stackexchange.com/questions/2547/… И описание робастной статистики: en.wikipedia.org/wiki/Robust_statistics
bill_080

То, что вы ищете для первой пары, является доказательством того, что медиана, обычно определяемая как значение среднего ранга (для нечетного числа значений в любом случае, начиная с самого простого случая), также является значением, которое минимизирует сумму абсолютных отклонений? Предпочтительно доказательство, которое также дает некоторое интуитивное понимание? Я не знаю ни одного доказательства, так что это кажется хорошим вопросом, и я хотел бы также знать ответ на него.
OneStop

Ты правильно меня чувствуешь. (a) и (b) в настоящее время, на мой взгляд, являются отдельными аспектами / свойствами для обеих статистик; но интуиция предполагает, что эти два аспекта связаны. Я хочу знать - как они связаны, чтобы понять все это глубоко.
ttnphns

Ответы:


19

Это два вопроса: один о том, как среднее значение и медиана минимизируют функции потерь, а другой о чувствительности этих оценок к данным. Два вопроса связаны, как мы увидим.

Минимизация потерь

Сводка (или оценка) центра пакета чисел может быть создана путем изменения суммарного значения и представления, что каждое число в пакете оказывает восстановительное усилие на это значение. Когда сила никогда не отталкивает значение от числа, тогда, возможно, любая точка, в которой баланс сил является «центром» партии.

Квадратичная ( ) потеряL2

Например, если бы мы должны были прикрепить классическую пружину (согласно закону Гука ) между сводкой и каждым числом, сила была бы пропорциональна расстоянию до каждой пружины. Источники будут тянуть итоги таким образом и, в конечном итоге, располагаясь в уникальном стабильном месте с минимальной энергией.

Я хотел бы обратить внимание на небольшую ловкость рук, которая только что произошла: энергия пропорциональна сумме квадратов расстояний. Ньютоновская механика учит нас, что сила - это скорость изменения энергии. Достижение равновесия - минимизация энергии - приводит к уравновешиванию сил. Чистая скорость изменения энергии равна нулю.

Давайте назовем это « Сводка » или «Сводка квадрата потерь».L2

Абсолютная ( ) потеряL1

Другое резюме может быть создано, предполагая, что размеры восстанавливающих сил постоянны , независимо от расстояний между значением и данными. Однако сами силы не являются постоянными, потому что они всегда должны тянуть значение к каждой точке данных. Таким образом, когда значение меньше точки данных, сила направлена ​​положительно, но когда значение больше точки данных, сила направлена ​​отрицательно. Теперь энергия пропорциональна расстояниям между значением и данными. Обычно существует целая область, в которой энергия постоянна, а чистая сила равна нулю. Любое значение в этом регионе мы можем назвать « Сводка » или «Сводка абсолютных потерь».L1

Эти физические аналогии дают полезную интуицию о двух аннотациях. Например, что произойдет с сводкой, если мы переместим одну из точек данных? В случае с прикрепленными пружинами перемещение одной точки данных либо растягивает, либо ослабляет ее пружину. Результатом является изменение силы в резюме, поэтому оно должно измениться в ответ. Но в случае L 1 большую часть времени изменение в точке данных никак не влияет на сводку, потому что сила локально постоянна. Единственный способ изменить силу - это точка данных перемещаться по сводке.L2L1

(На самом деле, должно быть очевидно, что чистая сила для значения определяется количеством точек, превышающих его - которые вытягивают его вверх, - минус количество точек, меньших его - которые тянут его вниз. Таким образом, Резюме должно происходить в любом месте , где число значений данных , превышающим его точно равно числу значений данных меньше , чем это.)L1

С изображением потерь

Так как силы и энергии складываются, в любом случае мы можем разложить чистую энергию на отдельные вклады от точек данных. Графики энергии или силы в зависимости от суммарного значения позволяют получить детальную картину происходящего. Резюме будет местом, в котором энергия (или «потеря» в статистическом языке) является наименьшей. Эквивалентно, это будет место, в котором баланс сил: центр данных происходит там, где чистое изменение потерь равно нулю.

На этом рисунке показаны энергии и силы для небольшого набора данных из шести значений (отмечены слабыми вертикальными линиями на каждом графике). Черные пунктирные кривые представляют собой итоговые значения цветных кривых, показывающие вклад отдельных значений. Ось X указывает возможные значения сводки.

фигура 1

Среднее арифметическое является точка , в которой квадрат потери сведены к минимуму: он будет расположен в вершине (внизу) черного параболы в верхнем левом участке. Это всегда уникально. Медиана является точкой , в которой сведена к минимуму абсолютной потеря. Как отмечено выше, это должно происходить в середине данных. Это не обязательно уникально. Он будет расположен внизу сломанной черной кривой в правом верхнем углу. (Нижняя фактически состоит из короткой секции плоской между и - 0,17 ; любое значение в этом интервале является медиана.)0.230.17

Анализ чувствительности

Ранее я описал, что может случиться с сводкой, когда точка данных изменяется. Полезно представить, как меняется сводка в ответ на изменение какой-либо отдельной точки данных. (Эти графики, в сущности, являются эмпирическими функциями влияния . Они отличаются от обычного определения тем, что они показывают действительные значения оценок, а не то, насколько эти значения изменены.) Значение сводки помечено как «Оценить» на y. -осил напомнить нам, что это резюме оценивает, где находится середина набора данных. Новые (измененные) значения каждой точки данных отображаются на их осях X.

фигура 2

На этом рисунке представлены результаты варьирования каждого из значений данных в пакете (то же, что было проанализировано на первом рисунке). Для каждого значения данных существует один график, который выделяется на графике длинным черным галочком вдоль нижней оси. (Остальные значения данных показаны короткими серыми галочками.) Синяя кривая отслеживаетсводку L 2 - среднее арифметическое - и красная кривая отслеживает L 11.02,0.82,0.23,0.17,0.08,0.77L2L1Резюме - медиана. (Поскольку часто медиана является диапазоном значений, здесь соблюдается соглашение о построении середины этого диапазона.)

Примечание:

  1. Чувствительность среднего не ограничена: эти синие линии проходят бесконечно далеко вверх и вниз. Чувствительность медианы ограничена: верхние и нижние пределы для красных кривых.

  2. Однако, где медиана меняется, она меняется гораздо быстрее, чем среднее значение. Наклон каждой синей линии ( как правило , это 1 / п для набора данных с1/61/n значений),то время как склоны наклонных частей красных линий все 1 / 2 .n1/2

  3. Среднее значение чувствительно к каждой точке данных, и эта чувствительность не имеет границ (как показывают ненулевые наклоны всех цветных линий на нижнем левом графике первого рисунка). Хотя медиана чувствительна к каждой точке данных, чувствительность ограничена (поэтому цветные кривые на нижнем правом графике первого рисунка расположены в узком вертикальном диапазоне около нуля). Это, конечно, просто визуальные подтверждения основного закона силы (потери): квадратичный для среднего, линейный для медианы.

  4. Интервал, в течение которого можно изменить медиану, может варьироваться между точками данных. Он всегда ограничен двумя значениями, близкими к средним, среди данных, которые не меняются . (Эти границы отмечены слабыми вертикальными пунктирными линиями.)

  5. Потому что скорость изменения медианы всегда , токоличествопомощью которого он может варьироватьсязависимостьследовательно, зависит от длины этого промежутка между ближним средними значениями набора данных.1/2

Хотя обычно отмечается только первый пункт, все четыре пункта важны. Особенно,

  • Совершенно неверно, что «медиана не зависит от каждого значения». Эта цифра представляет собой контрпример.

  • тем не менее, медиана не зависит "материально" от каждого значения в том смысле, что, хотя изменение отдельных значений может изменить медиану, величина изменения ограничена промежутками между значениями, близкими к средним, в наборе данных. В частности, количество изменений ограничено . Мы говорим, что медиана является "устойчивым" резюме.

  • Хотя среднее значение не является устойчивым и будет меняться при изменении любого значения данных, скорость изменения относительно невелика. Чем больше набор данных, тем меньше скорость изменения. Эквивалентно, чтобы произвести существенное изменение среднего значения большого набора данных, по крайней мере, одно значение должно претерпеть относительно большое изменение. Это говорит о том, что невосприимчивость к среднему значению имеет значение только для (a) небольших наборов данных или (b) наборов данных, где один или несколько данных могут иметь значения, чрезвычайно удаленные от середины пакета.

Эти замечания, которые, как я надеюсь, станут очевидными, показывают глубокую связь между функцией потерь. и чувствительностью (или сопротивлением) оценки. Чтобы узнать больше об этом, начните с одной из статей Википедии о M-оценщиках, а затем развивайте эти идеи так, как вам нравится.


Код

Этот Rкод создал цифры и может быть легко изменен для изучения любого другого набора данных таким же образом: просто замените случайно созданный вектор yлюбым вектором чисел.

#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
  sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
  apply(col2rgb(c)/255 * x, 2, function(s)  rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics, 
                         function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
  #
  # Create a standard, consistent plot region.
  #
  plot(x.limits, y.limits, type="n", 
       xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
       main=paste("Sensitivity to y[", i, "]", sep=""))
  #legend("topleft", legend=names(statistics), col=colors, lwd=1)
  #
  # Mark the limits of the possible medians.
  #
  n <- length(y)/2
  bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
  abline(v=range(bars), lty=2, col="Gray")
  rug(y, col="Gray", ticksize=0.05);
  #
  # Show which value is being varied.
  #
  rug(y[1], col="Black", ticksize=0.075, lwd=2)
  #
  # Plot the statistics as the value is varied between x.limits.
  #
  invisible(mapply(function(f,c) 
    curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
    statistics, colors))
  y <- c(y[-1], y[1])    # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
                   "Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
  f <- losses[[j]]
  y.range <- range(c(0, 1.1*loss(y, y, f)))
  #
  # Plot the loss (or its rate of change).
  #
  curve(loss(x, y, f), from=min(x.limits), to=max(x.limits), 
        n=1001, lty=3,
        ylim=y.range, xlab="Value", ylab=loss.types[j],
        main=names(losses)[j])
  #
  # Draw the x-axis if needed.
  #
  if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
  #
  # Faintly mark the data values.
  #
  abline(v=y, col="#00000010")
  #
  # Plot contributions to the loss (or its rate of change).
  #
  for (i in 1:length(y)) {
    curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
  }
  rug(y, side=3)
}

3
Я предлагаю вознаграждение, из-за кропотливого, неторопливого стиля ответа, помимо качества.
ttnphns

Спасибо! Ваша оценка этого поста очень приятна.
whuber

11

x1,x2,,xnnyf(y)yxif(y)=|x1y|+|x2y|++|xny|yf(y)lxiyr=nlyyyf(y)

Δyyxiy|xiy|Δyy|xiy|ΔyΔyyf(y)lΔyrΔy=(lr)Δyf(y)xiyyf(y)lr=0xi слева отyyxi

f(y)f(y)=(x1y)2++(xny)2f(y)yxiy

f(y)


1
xi

спасибо за элегантную экспликацию. Однако, для меня это звучит так: «То число y, небольшое изменение которого не меняет функцию Sum | x_i-y | , не зависит от каждого x_i и называется медианой». Это интересная заметка о медиане четных n данных. Но я просил доказать это: «То число y, которое минимизирует функцию Sum | x_i-y | , не зависит от каждого x_i и называется медианой». И аналогично: «То число y, которое минимизирует функцию Sum (x_i-y) ^ 2, зависит одинаково от каждого x_i и называется средним».
ttnphns

1
как мне доказать, что это называется "медиана"? Это безумие.
Шаббычеф

Это причина причин. Эта часть не доказать, я надеюсь, вы понимаете.
ttnphns

1
Есть ли аналогичный результат для медианы абсолютных отклонений вместо суммы абсолютных отклонений? Потому что Медиана Абсолютное Отклонение от Медианы также является довольно интересной мерой дисперсии.
Самбест

3
  • x(n)2x(n)
  • aR

i=1n|ximedian|i=1n|xia|

и

i=1n(ximean)2i=1n(xia)2


Well, as an experienced statistician lacking fundamental maths education I still know about Mean and Median differences and applications a lot. What I need here is somebody to DRAW - logically or mathematically - either (a) from (b) or (b) from (a), for me. I feel I can't harmonize (a) with (b) rationally myself. Marco, I find very difficult understanding your notation. If your formulas is the deduction I need please could you "chew over" the idea less technically for me?
ttnphns

P.S. As long as your two inequalities got finally displayed correctly on my screen I see it's merely my (b) statements. You write, "it can be shown that...". So do show me that. I need a kind of mathematical proof put in terms that are intelligible for data analyst who is not a professional mathematician.
ttnphns

2
@ttnphns: ваш запрос о математическом, а не интуитивном ответе кажется несовместимым с вашим запросом о чем-то менее техническом, чем то, что предлагали люди.
rolando2

Can we simplify the situation to 2 or three points and ask whether the median in the double summation non-strict inequality above has a unique value? With two points it would seem to be satisfied by any point between the 2.
DWin

2

Hey here is a contribution, after I read about it a bit. Probably a bit late for the person who asked, but maybe worth for someone else.

For the mean case :

Consider the problem argminxi=1n(yix)

Introduce f(x)=i=1n(yix)2

f(x)=02i=1n(yix)=0

f(x)=0i=1nyi=i=1nx

f(x)=0x=i=1nn

As the function is convex, this is a minimum

For the median case

Consider the problem argminxi=1n|yix|

Introduce f(x)=i=1n|yix|

f(x)=0i=1nsgn(yix)=0

(where sgn(x) is the sign of x : sgn(x)=1 if x>0 and sgn(x)=1 if x<0)

f(x)=0#{yi/yi>x}#{yi/yi<x}=0

(where # is the cardinal of the space, so in this discrete case, the number of elements in it)

f(x)=0x is the median if n is odd (you have to refine a bit if it is even, but the principle is the same).

As the function is convex too, this is a minimum again.


Thanks. It may be helpful for me and others. Can you add some comments in words for main of your expressions - for somebody who is not quite fluent in understanding formulas. In particularly, your last by one line - what does it mean and what is #?
ttnphns

Is it clear now ? I have defined the two less usual functions
Anthony Martin
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.