Зачем возводить в квадрат разницу, а не принимать абсолютное значение в стандартном отклонении?


408

В определении стандартного отклонения, почему мы должны возвести в квадрат разницу от среднего, чтобы получить среднее значение (E) и вернуть квадратный корень в конце? Разве мы не можем просто взять абсолютное значение разницы вместо этого и получить ожидаемое значение (среднее) из них, и не будет ли это также показывать изменение данных? Число будет отличаться от квадратного метода (метод абсолютного значения будет меньше), но он все равно должен показывать разброс данных. Кто-нибудь знает, почему мы принимаем этот квадратный подход как стандарт?

Определение стандартного отклонения:

σзнак равноЕ[(Икс-μ)2],

Разве мы не можем просто взять абсолютное значение и все же быть хорошим измерением?

σзнак равноЕ[|Икс-μ|]


25
В каком-то смысле предложенное вами измерение широко используется в случае анализа ошибок (качества модели) - тогда оно называется MAE, «средняя абсолютная ошибка».

8
Принимая ответ, мне кажется важным, чтобы мы обращали внимание на то, является ли ответ циркулярным. Нормальное распределение основано на этих измерениях дисперсии от квадратов ошибок, но это само по себе не является оправданием для использования (XM) ^ 2 над | XM |.
Расселпирс

2
Как вы думаете, термин стандарт означает, что это стандарт сегодня? Разве это не вопрос о том, почему главный компонент является «основным», а не вторичным?
Робин Жирар

51
Каждый предложенный ответ является круглым. Они фокусируются на простоте математических вычислений (что приятно, но ни в коем случае не фундаментально) или на свойствах гауссова (нормального) распределения и OLS. Около 1800 года Гаусс начался с наименьших квадратов и дисперсии, и из тех, которые были получены для нормального распределения, - это округлость. Поистине фундаментальной причиной, которая еще ни разу не упоминалась, является уникальная роль, которую играет дисперсия в Центральной предельной теореме . Другим является важность в теории принятия решений минимизации квадратичных потерь.
whuber

2
Талеб приводит аргументы в пользу того, что Edge.org отказывается от стандартного отклонения и использует среднее абсолютное отклонение.
Алекс Холкомб

Ответы:


188

Если цель стандартного отклонения состоит в том, чтобы суммировать разброс симметричного набора данных (то есть, в общем, как далеко каждый элемент данных от среднего значения), то нам нужен хороший метод определения того, как измерить этот разброс.

Преимущества возведения в квадрат включают в себя:

  • Квадрат всегда дает положительное значение, поэтому сумма не будет равна нулю.
  • Квадрат подчеркивает большие различия - особенность, которая оказывается как хорошей, так и плохой (подумайте об эффекте, который имеют выбросы).

Квадрат, однако, имеет проблему как меру распространения, а именно, что все единицы в квадрате, в то время как мы могли бы предпочесть, чтобы спред был в тех же единицах, что и исходные данные (представьте квадратные фунты, квадратные доллары или квадратные яблоки) , Следовательно, квадратный корень позволяет нам вернуться к исходным единицам.

Я полагаю, вы могли бы сказать, что абсолютная разница придает равный вес разбросу данных, тогда как возведение в квадрат подчеркивает крайности. Технически, хотя, как отмечали другие, возведение в квадрат значительно облегчает работу с алгеброй и обеспечивает свойства, которых нет у абсолютного метода (например, дисперсия равна ожидаемому значению квадрата распределения минус квадрат квадрата среднее распределение)

Тем не менее , важно отметить, что нет никаких причин, по которым вы не могли бы принять абсолютную разницу, если бы вы предпочитали, как вы хотите видеть «спред» (например, некоторые люди считают 5% магическим порогом для значений, когда на самом деле это зависит от ситуации). На самом деле, существует несколько конкурирующих методов измерения спреда.p

Я считаю, что нужно использовать квадратные значения, потому что мне нравится думать о том, как это соотносится с теоремой статистики Пифагора: ... это также помогает мне помнить, что при работе с независимыми случайными переменными добавляются отклонения, а стандартные отклонения - нет. Но это только мое личное субъективное предпочтение, которое я в основном использую только как вспомогательное средство памяти, не стесняйтесь игнорировать этот параграф.c=a2+b2

Более подробный анализ можно прочитать здесь .


72
«Квадрат всегда дает положительное значение, поэтому сумма не будет равна нулю». и так же абсолютные значения.
Робин Жирар

32
@robin girard: Это правильно, поэтому я и предшествовал этому пункту: «Преимущества квадрата включают». Я не имел в виду что-либо об абсолютных ценностях в этом утверждении. Хотя я понимаю вашу точку зрения, я рассмотрю ее удаление / перефразирование, если другие считают, что это неясно.
Тони Бреял

15
Большая часть области надежной статистики - это попытка справиться с чрезмерной чувствительностью к выбросам, что является следствием выбора дисперсии в качестве меры разброса данных (технически масштабирования или дисперсии). en.wikipedia.org/wiki/Robust_statistics
Thylacoleo

5
Статья, на которую есть ссылка в ответе, - это бог.
traggatmot

1
Я думаю, что параграф о Пифагоре очень важен. Вы можете думать об ошибке как о векторе в измерениях, где n - это число выборок. Размер в каждом измерении отличается от среднего значения для этого образца. [ ( Х 1 - μ ) , ( х 2 - μ ) , ( х 3 - μ ) , . , , ] Длина этого вектора (Пифагор) является корнем суммированных квадратов, то есть стандартного отклонения. NN[(Икс1-μ),(Икс2-μ),(Икс3-μ),,,,]
Арне Брассер

138

Квадратное различие имеет более хорошие математические свойства; оно непрерывно дифференцируемо (приятно, когда вы хотите минимизировать его), это достаточная статистика для гауссовского распределения, и это (версия) нормы L2, которая пригодится для доказательства сходимости и так далее.

Среднее абсолютное отклонение (предложенное вами обозначение абсолютного значения) также используется в качестве меры дисперсии, но оно не так «хорошо себя ведет», как квадратичная ошибка.


2
сказанное «оно непрерывно дифференцируемо (приятно, когда вы хотите минимизировать его)» вы имеете в виду, что абсолютное значение трудно оптимизировать?
Робин Жирар

29
@robin: хотя функция абсолютного значения везде непрерывна, ее первая производная - нет (при x = 0). Это затрудняет аналитическую оптимизацию.
Винс

12
Да, но найти нужное число, а не просто его дескриптор, легче при квадратичной потере ошибок. Рассмотрим одномерный случай; Вы можете выразить минимизатор квадрата ошибки как среднее значение: O (n) операций и замкнутая форма. Вы можете выразить значение минимизатора абсолютной ошибки через медиану, но нет решения в замкнутой форме, которое сообщит вам, каково значение медианы; это требует сортировки, чтобы найти, что-то вроде O (n log n). Решения наименьших квадратов, как правило, представляют собой простую операцию типа «подключи и пускай», решения на основе абсолютных значений обычно требуют больше работы для поиска.
Рич

5
@Rich: и дисперсия, и медиана могут быть найдены за линейное время, и, конечно, не быстрее. Медиана не требует сортировки.
Нил Дж


84

Один из способов, которым вы можете думать об этом, состоит в том, что стандартное отклонение похоже на «расстояние от среднего».

Сравните это с расстояниями в евклидовом пространстве - это даст вам истинное расстояние, где то, что вы предложили (что, кстати, является абсолютным отклонением ), больше похоже на вычисление манхэттенского расстояния .


17
Хорошая аналогия евклидова пространства!
c4il

2
За исключением того, что в одном измерении нормы и l 2 - это одно и то же, не так ли? L1L2
naught101

5
@ naught101: Это не одно измерение, а измерений, где n - количество выборок. Стандартное отклонение и абсолютное отклонение представляют собой (в масштабе) расстояния l 2 и l 1, соответственно, между двумя точками ( x 1 , x 2 , , x n ) и ( μ , μ , , μ ), где μ - среднее значение. , NNL2L1(Икс1,Икс2,...,ИксN)(μ,μ,...,μ)μ
ShreevatsaR

1
Это должно быть изменено как минимальное расстояние от среднего значения. По сути, это уравнение Пифагора.
Джон

56

Причина , что мы рассчитать стандартное отклонение вместо абсолютной погрешности в том , что мы в предположении об ошибке , чтобы быть нормально распределены . Это часть модели.

Предположим, что вы измеряли очень малую длину с помощью линейки, тогда стандартное отклонение является плохим показателем для ошибки, потому что вы знаете, что никогда не будете случайно измерять отрицательную длину. Лучшим показателем будет тот, который поможет подобрать гамма-распределение к вашим измерениям:

log(E(x))E(log(x))

Как и стандартное отклонение, оно также неотрицательно и дифференцируемо, но это лучшая статистика ошибок для этой проблемы.


3
Мне нравится твой ответ. SD не всегда лучшая статистика.
RockScience

2
Отличный контр-пример того, когда стандартное отклонение - не лучший способ думать о размерах колебаний.
Hbar

Разве у вас не должно быть противоположного знака количества, чтобы получить положительную меру - с использованием выпуклого вместо вогнутого log x ? -LограммИксжурналИкс
AS

@ Нет, это уже всегда позитивно. Он равен нулю, когда все выборки равны, а в противном случае его величина измеряет изменение. Икс
Нил Дж

Вы ошибаетесь. для вогнутой g . E(g(X))g(E(X))g
AS

25

Ответ, который мне больше всего понравился, заключается в том, что он естественным образом выпадает из обобщения образца в n-мерное евклидово пространство. Это, конечно, спорно, что является ли то, что должно быть сделано, но в любом случае:

Предположим, что ваши измерений X i являются осью в R n . Тогда ваши данные х я определяю точку х в этом пространстве. Теперь вы можете заметить, что все данные очень похожи друг на друга, поэтому вы можете представить их с помощью одного параметра местоположения μ, который должен лежать на линии, определенной как X i = μ . Проектируя свой Datapoint на этой линии получает вас μ = ˉ х , а расстояние от проектируемой точки μ 1 фактической точки данных является nXiRnxixμXi=μμ^=x¯μ^1.n1nσ^=xμ^1

Этот подход также получает вас геометрическую интерпретацию для .ρ^=cos(x~,y~)


7
Это правильно и привлекательно. Однако, в конце концов, кажется, что он перефразирует вопрос, но фактически не отвечает на него: а именно, почему мы должны использовать евклидово (L2) расстояние?
whuber

20
@sesqu Стандартные отклонения не стали обычным делом, пока Гаусс в 1809 году не вывел одноименное отклонение, используя квадратную ошибку, а не абсолютную ошибку, в качестве отправной точки. Однако, что подтолкнуло их к вершине (я полагаю), была теория регрессии Гальтона (на которую вы намекаете) и способность ANOVA разлагать суммы квадратов - что составляет повторение теоремы Пифагора, отношения, которыми пользуются только L2 норма. Таким образом, SD стал естественной совокупной мерой распространения, отстаиваемой в «Статистических методах научных работников» Фишера 1925 года, и вот мы здесь, 85 лет спустя.
whuber

13
(+1) Продолжая в духе @ whuber, я бы поспорил, что в 1908 году Студент опубликовал статью под названием «Вероятная ошибка среднего значения - Эй, ребята, посмотрите, что MAE в знаменателе!» тогда у статистики будет совсем другое лицо. Конечно, он не публиковал такую ​​статью, и, конечно, он не мог этого сделать, потому что MAE не может похвастаться всеми хорошими свойствами, которыми обладает S ^ 2. Один из них (связанный со Стьюдентом) - это его независимость от среднего значения (в обычном случае), что, конечно, является подтверждением ортогональности, которое возвращает нас обратно к L2 и внутреннему произведению.

3
Этот ответ был наводящим на размышления, и я думаю, что мой предпочтительный способ просмотреть его. В 1-D трудно понять, почему возведение в квадрат разницы выглядит лучше. Но в нескольких измерениях (или даже только в 2) легко увидеть, что евклидово расстояние (квадрат) предпочтительнее, чем манхэттенское расстояние (сумма абсолютных значений разностей).
thecity2

1
@whuber Не могли бы вы объяснить, что означает «линия, определенная Xᵢ = μ»? Это линия, проходящая через начало координат и точку (μ, μ, ..., μ)? Кроме того, где я могу прочитать больше об этом?
Arch Stanton

18

Возведение разницы в среднее значение имеет несколько причин.

  • Дисперсия определяется как 2-й момент отклонения (здесь RV ), и, таким образом, квадрат как моменты - это просто ожидания более высоких степеней случайной величины.(Икс-μ)

  • Наличие квадрата в отличие от функции абсолютного значения дает хорошую непрерывную и дифференцируемую функцию (абсолютное значение не дифференцируется при 0), что делает его естественным выбором, особенно в контексте оценки и регрессионного анализа.

  • Квадратная формулировка также естественно выпадает из параметров нормального распределения.


17

Еще одна причина (в дополнение к превосходным приведенным выше) исходит от самого Фишера, который показал, что стандартное отклонение более «эффективно», чем абсолютное отклонение. Здесь эффективность связана с тем, насколько статистические данные будут колебаться в стоимости при различных выборках из совокупности. Если ваша совокупность обычно распределена, стандартное отклонение различных выборок из этой совокупности будет, в среднем, давать вам значения, которые довольно похожи друг на друга, тогда как абсолютное отклонение даст вам числа, которые распространяются немного больше. Сейчас, очевидно, это в идеальных обстоятельствах, но в этом причина убедила многих людей (а математика была чище), поэтому большинство людей работали со стандартными отклонениями.


6
Ваш аргумент зависит от данных, которые обычно распространяются. Если мы предположим, что популяция имеет «двойное экспоненциальное» распределение, то абсолютное отклонение является более эффективным (фактически это достаточная статистика для шкалы)
вероятностная

7
Да, как я уже сказал, «если ваше население нормально распределено».
Эрик Су

Помимо предположения о нормальном распределении, доказательство Фишера предполагает безошибочные измерения. С небольшими ошибками, такими как 1%, ситуация инвертируется, и среднее абсолютное отклонение более эффективно, чем стандартное отклонение
juanrga

14

Просто чтобы люди знали, есть вопрос Math Overflow по той же теме.

Почему-это-это-так круто к квадратных чисел-в-ухудшений условий нахождения-в-стандартное отклонение

Вывод состоит в том, что использование квадратного корня из дисперсии приводит к упрощению математики. Аналогичный ответ дают Рич и Рид выше.


3
«Простая математика» не является обязательным требованием, когда мы хотим, чтобы наши формулы и значения более точно отражали данный набор данных. Компьютеры делают всю тяжелую работу в любом случае.
Дэн Вт,

Определение пи как 3.14 облегчает математику, но это не делает ее правильной.
Джеймс

13

Отклонения аддитивны: для независимых случайных величин , var ( X 1 + + X n ) = var ( X 1 ) + + var ( X n ) .Икс1,...,ИксN

вар(Икс1++ИксN)знак равновар(Икс1)++вар(ИксN),

Обратите внимание, что это делает возможным: скажем, я подбрасываю честную монету 900 раз. Какова вероятность того, что количество голов, которые я получу, составляет от 440 до 455 включительно? Просто найдите ожидаемое количество головок ( ) и дисперсию числа головок ( 225 = 15 2 ), затем найдите вероятность с нормальным (или гауссовским) распределением с ожиданием 450 и стандартным отклонением 15 между 439,5 и 455,5. , Авраам де Моивр сделал это с бросками монет в 18-м веке, тем самым сначала показав, что колоколообразный изгиб чего-то стоит.450225знак равно15245015439,5455,5


Средние абсолютные отклонения не аддитивны так же, как отклонения?
russellpierce

6
Нет, они не.
Майкл Харди

10

Я думаю, что контраст между использованием абсолютных отклонений и квадратов отклонений становится более четким, когда вы выходите за пределы одной переменной и думаете о линейной регрессии. Хорошая дискуссия на http://en.wikipedia.org/wiki/Least_absolute_deviations , в частности, в разделе «Сравнение наименьших квадратов с наименьшими абсолютными отклонениями», в котором приводятся ссылки на некоторые студенческие упражнения с аккуратным набором апплетов на http: // www .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .

Подводя итог, можно сказать, что наименьшие абсолютные отклонения более устойчивы к выбросам, чем обычные наименьшие квадраты, но они могут быть нестабильными (небольшие изменения даже в одной системе координат могут привести к большим изменениям в подгоночной линии) и не всегда имеют уникальное решение - могут быть целый ряд подогнанных линий. Также наименьшие абсолютные отклонения требуют итерационных методов, в то время как обычные наименьшие квадраты имеют простое решение в замкнутой форме, хотя сейчас это не так уж и страшно, как, конечно, во времена Гаусса и Лежандра.


Аргумент «уникальное решение» довольно слабый, это действительно означает, что данные поддерживают более одного значения. Кроме того, штрафование коэффициентов, таких как L2, решит проблему уникальности, а также проблему стабильности в некоторой степени.
вероятностная

10

Есть много причин; Вероятно, главное, что он хорошо работает как параметр нормального распределения.


4
Я согласен. Стандартное отклонение является правильным способом измерения дисперсии, если вы предполагаете нормальное распределение. И много распределений и реальных данных примерно нормальные.
Лукаш Лью

2
Я не думаю, что вы должны говорить «натуральный параметр»: естественные параметры нормального распределения имеют среднюю и среднюю точность. ( en.wikipedia.org/wiki/Natural_parameter )
Нил Г,

1
@NeilG Хороший вопрос; Я думал о «случайном» значении здесь. Я подумаю над лучшим словом.

8

Во многих отношениях использование стандартного отклонения для суммирования дисперсии делает поспешный вывод. Можно сказать, что SD неявно предполагает симметричное распределение из-за равного отношения расстояния ниже среднего значения к расстоянию выше среднего. СД на удивление трудно интерпретировать не статистикам. Можно утверждать, что среднее различие Джини имеет более широкое применение и является значительно более понятным. Не требуется, чтобы кто-либо заявлял о своем выборе меры центральной тенденции, как использование SD для среднего. Средняя разница Джини - это средняя абсолютная разница между любыми двумя различными наблюдениями. Помимо того, что он надежен и прост в интерпретации, он оказывается эффективнее 0,98, как SD, если распределение на самом деле было гауссовским.


2
Просто чтобы добавить к предложению @ Фрэнка о Джини, здесь есть хорошая статья: projecteuclid.org/download/pdf_1/euclid.ss/1028905831 В ней рассматриваются различные меры рассеяния, а также дается информативная историческая перспектива.
Томас Шпейдел

1
Мне тоже нравятся эти идеи, но есть менее известное параллельное определение дисперсии (и, следовательно, SD), которое не ссылается на средства как параметры местоположения. Дисперсия составляет половину среднего квадрата для всех парных разностей между значениями, так же как средняя разница Джини основана на абсолютных значениях всех парных разностей.
Ник Кокс

7

Оценка стандартного отклонения распределения требует выбора расстояния.
Можно использовать любое из следующих расстояний:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

Мы обычно используем естественное евклидово расстояние ( ), которое каждый использует в повседневной жизни. Расстояние, которое вы предлагаете, это расстояние с n = 1 . Оба являются хорошими кандидатами, но они разные.n=2n=1

Можно также решить использовать .n=3

Я не уверен, что вам понравится мой ответ, я не согласен с тем, чтобы показать, что лучше. Я думаю, что если вы хотите оценить стандартное отклонение распределения, вы можете использовать абсолютно другое расстояние.n=2


6

Это зависит от того, о чем вы говорите, когда говорите «распространение данных». Для меня это может означать две вещи:

  1. Ширина выборочного распределения
  2. Точность данной оценки

Для пункта 1) нет особой причины использовать стандартное отклонение в качестве меры разброса, за исключением случаев, когда у вас нормальное распределение выборки. Мера является более подходящей мерой в случаераспределения выборки Лапласа. Я предполагаю, что стандартное отклонение используется здесь из-за интуиции, перенесенной из пункта 2). Вероятно, также из-за успеха моделирования наименьших квадратов в целом, для которого стандартное отклонение является подходящей мерой. Возможно также потому, что вычисление E ( X 2 ) обычно проще, чем вычисление E ( |E(|Xμ|)E(X2) для большинства дистрибутивов.E(|X|)

Теперь для пункта 2) есть очень веская причина для использования дисперсии / стандартного отклонения в качестве меры разброса в одном конкретном, но очень распространенном случае. Вы можете видеть это в приближении Лапласа к заднему. С данными и предшествующей информацией I напишите апостериорный для параметра θ как:DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

tθθmax

h(θ)h(θmax)+(θmaxθ)h(θМаксимум)+12(θМаксимум-θ)2час"(θМаксимум)

θМаксимумчас'(θМаксимум)знак равно0

час(θ)час(θМаксимум)+12(θМаксимум-θ)2час"(θМаксимум)

Если мы включим это приближение, мы получим:

п(θ|Dя)ехр(час(θМаксимум)+12(θМаксимум-θ)2час"(θМаксимум))ехр(час(θМаксимум)+12(θМаксимум-T)2час"(θМаксимум))dT

знак равноехр(12(θМаксимум-θ)2час"(θМаксимум))ехр(12(θМаксимум-T)2час"(θМаксимум))dT

Е(θ|Dя)θМаксимум

В(θ|Dя)[-час"(θМаксимум)]-1

-час"(θМаксимум)θчас"(θ)JКзнак равночас(θ)θJθК

п(θ|я)знак равно1θθМаксимум

п(θМаксимум|θ)N(θ,[-час"(θМаксимум)]-1)
(посмотрите, можете ли вы угадать, какую парадигму я предпочитаю: P). Так или иначе, в оценке параметров стандартное отклонение является важной теоретической мерой разброса.

6

«Почему квадрат разницы» вместо «принятия абсолютного значения»? Чтобы ответить очень точно, есть литература, в которой приводятся причины, по которым она была принята, и обоснование того, почему большинство из этих причин не имеют места. «Разве мы не можем просто принять абсолютное значение ...?». Я знаю литературу, в которой ответ - да, это делается, и это считается выгодным.

Автор Горард утверждает, во-первых, использование квадратов было ранее принято по причинам простоты расчета, но эти первоначальные причины более не имеют места. Во-вторых, Горард утверждает, что OLS был принят, потому что Фишер обнаружил, что результаты анализов, в которых использовался OLS, имели меньшие отклонения, чем те, которые использовали абсолютные различия (грубо говоря). Таким образом, казалось бы, что OLS может иметь преимущества в некоторых идеальных обстоятельствах; однако Горард продолжает отмечать, что существует некоторый консенсус (и он утверждает, что Фишер согласен), что в реальных условиях (несовершенное измерение наблюдений, неравномерное распределение, исследования популяции без вывода из выборки) использование квадратов хуже, чем абсолютные различия.

Ответ Горарда на ваш вопрос: «Разве мы не можем просто взять абсолютную величину разницы и получить ожидаемую (среднюю) их величину?» Да. Еще одним преимуществом является то, что использование различий приводит к мерам (мерам ошибок и вариаций), которые связаны с тем, как мы воспринимаем эти идеи в жизни. Горард говорит, что представьте себе людей, которые делят счет в ресторане равномерно, и некоторые могут интуитивно заметить, что этот метод несправедлив. Никто там не исправит ошибки; Различия суть.

Наконец, используя абсолютные различия, он отмечает, что к каждому наблюдению относятся одинаково, тогда как при контрастировании квадратов различия дают прогнозируемые результаты с плохо большим весом, чем хорошо прогнозируемые наблюдения, что похоже на то, что некоторые наблюдения можно включать в исследование несколько раз. Таким образом, его основная идея заключается в том, что сегодня не так много причин выиграть для использования квадратов, и что использование абсолютных различий, напротив, имеет свои преимущества.

Рекомендации:


1
Спасибо @Jen, это напоминает мне историю клавиатуры QWERTY. Эй, как же так долго печатать QWERTY?
toto_tico

5

Потому что квадраты могут позволить использовать многие другие математические операции или функции легче, чем абсолютные значения.

Пример: квадраты могут быть интегрированы, дифференцированы, могут легко использоваться в тригонометрических, логарифмических и других функциях.


2
Интересно, есть ли здесь самореализация профессии? Мы получаем
вероятностная

5

При добавлении случайных величин их дисперсии добавляются для всех распределений. Дисперсия (и, следовательно, стандартное отклонение) является полезной мерой почти для всех распределений и никоим образом не ограничивается гауссовыми (иначе говоря, «нормальными») распределениями. Это способствует использованию его в качестве нашей меры ошибки. Недостаток уникальности - серьезная проблема с абсолютными различиями, так как часто существует бесконечное количество одинаковых «подгонок», и все же ясно, что «посередине» наиболее реалистично. Кроме того, даже с современными компьютерами важна вычислительная эффективность. Я работаю с большими наборами данных, и время процессора важно. Однако не существует единого абсолютного «наилучшего» показателя остатков, как указывалось в некоторых предыдущих ответах. Различные обстоятельства иногда требуют разных мер.


2
Я не уверен, что дисперсии очень полезны для асимметричных распределений.
Фрэнк Харрелл

А как насчет пары «полувариаций», одна вверх, другая вниз?
kjetil b halvorsen

3

Естественно, вы можете описать разброс распределения любым осмысленным образом (абсолютное отклонение, квантили и т. Д.).

Одним приятным фактом является то, что дисперсия является вторым центральным моментом, и каждое распределение однозначно описывается своими моментами, если они существуют. Другим приятным фактом является то, что дисперсия математически гораздо лучше, чем любая сопоставимая метрика. Другой факт состоит в том, что дисперсия является одним из двух параметров нормального распределения для обычной параметризации, и нормальное распределение имеет только 2 ненулевых центральных момента, которые являются этими двумя самыми параметрами. Даже для ненормальных распределений может быть полезно думать в нормальных рамках.

На мой взгляд, причина, по которой стандартное отклонение существует как таковое, заключается в том, что в приложениях регулярно появляется квадратный корень из дисперсии (например, для стандартизации случайной переменной), что требует ее имени.


1
Если я правильно помню, разве лог-нормальное распределение не однозначно определяется его моментами.
вероятностная

1
@probabilityislogic, действительно, это правда, см. en.wikipedia.org/wiki/Log-normal_distribution в разделе «Характеристическая функция и функция генерации момента».
kjetil b halvorsen

1

Другой и, возможно, более интуитивный подход - это когда вы думаете о линейной регрессии по сравнению со срединной регрессией.

Е(Y|Икс)знак равноИксββзнак равноArgминбЕ(Y-Иксб)2

(Y|Икс)знак равноИксββзнак равноArgминбЕ|Y-Иксб|

Другими словами, использовать ли абсолютную или квадратичную ошибку, зависит от того, хотите ли вы смоделировать ожидаемое значение или медианное значение.

YИксY

У Koenker и Hallock есть хорошая статья о квантильной регрессии, где срединная регрессия является особым случаем: http://master272.com/finance/QR/QRJEP.pdf .


0

Мое предположение таково: большинство популяций (распределений) имеют тенденцию собираться вокруг среднего значения. Чем дальше значение от среднего, тем оно реже. Для того чтобы адекватно выразить, насколько «вне линии» значение, необходимо учитывать как его расстояние от среднего значения, так и его (обычно говоря) редкость появления. Это делает возведение в квадрат разницы со средним по сравнению со значениями, которые имеют меньшие отклонения. После того, как все дисперсии усреднены, можно взять квадратный корень, который возвращает единицы к их исходным размерам.


2
Это не объясняет, почему вы не могли просто взять абсолютную величину разницы. Это кажется концептуально более простым для большинства учеников, изучающих статистику, и «учитывает как его расстояние от среднего значения, так и его (обычно говоря) редкость встречаемости».
банду

Я думаю, что абсолютное значение разницы будет выражать только разницу от среднего значения и не будет учитывать тот факт, что большие различия вдвойне нарушают нормальное распределение.
Сэмюэль Берри

2
Почему важно «вдвойне разрушительное», а не, скажем, «втрое разрушающее» или «четырехкратное разрушительное»? Похоже, этот ответ просто заменяет исходный вопрос эквивалентным вопросом.
whuber

0

Квадрат усиливает большие отклонения.

Если у вашей выборки есть значения, которые находятся по всей диаграмме, то для того, чтобы привести 68,2% к первому стандартному отклонению, ваше стандартное отклонение должно быть немного шире. Если ваши данные имеют тенденцию падать вокруг среднего значения, то σ может быть более жестким.

Некоторые говорят, что это для упрощения расчетов. Использование положительного квадратного корня из квадрата решило бы это так, чтобы аргумент не плавал.

|Икс|знак равноИкс2

Так что если бы целью была алгебраическая простота, то это выглядело бы так:

σзнак равноЕ[(Икс-μ)2]Е[|Икс-μ|]

Очевидно, что возведение в квадрат также усиливает внешние ошибки (дох!).


Lп

Первый абзац был причиной моего отрицательного голоса.
Алексис

3
@ Престон Тэйн: Поскольку стандартное отклонение не является ожидаемым значением sqrt((x-mu)^2), ваша формула вводит в заблуждение. Кроме того, только то, что возведение в квадрат приводит к усилению больших отклонений, не означает, что это является причиной предпочтения дисперсии по сравнению с MAD . Во всяком случае, это нейтральное свойство, так как часто мы хотим что-то более надежное, как MAD . И наконец, тот факт, что дисперсия более математически понятна, чем MAD, является математически более глубокой проблемой, чем вы изложили в этом посте.
Стив С

0

Зачем возводить в квадрат разницу, а не принимать абсолютное значение в стандартном отклонении?

Мы возводим в квадрат разницу значений x от среднего, потому что евклидово расстояние, пропорциональное квадратному корню из степеней свободы (число x в измерении населенности), является наилучшей мерой дисперсии.

Расчет расстояния

Каково расстояние от точки 0 до точки 5?

  • 5-0знак равно5
  • |0-5|знак равно5
  • 52знак равно5

Хорошо, это тривиально, потому что это одно измерение.

Как насчет расстояния для точки в точке 0, 0 до точки 3, 4?

Если мы можем идти только в одном измерении за раз (как в городских кварталах), тогда мы просто сложим числа. (Это иногда называют манхэттенским расстоянием).

Но как насчет двух измерений одновременно? Затем (по теореме Пифагора, которую мы все изучили в старшей школе), мы возводим в квадрат расстояние в каждом измерении, суммируем квадраты, а затем берем квадратный корень, чтобы найти расстояние от начала координат до точки.

32+42знак равно25знак равно5

Как насчет расстояния от точки в 0, 0, 0 до точки 1, 2, 2?

Это только

12+22+22знак равно9знак равно3

потому что расстояние для первых двух иксов образует ногу для вычисления общего расстояния с последним х.

Икс12+Икс222+Икс32знак равноИкс12+Икс22+Икс32

Мы можем продолжить расширять правило возведения в квадрат расстояния каждого измерения, которое обобщает то, что мы называем евклидовым расстоянием, для ортогональных измерений в гиперразмерном пространстве, например так:

dяsTaNсезнак равноΣязнак равно1NИкся2

и поэтому сумма ортогональных квадратов является квадратом расстояния:

dяsTaNсе2знак равноΣязнак равно1NИкся2

Что делает измерение ортогональным (или под прямым углом) к другому? Условие состоит в том, что нет никакой связи между этими двумя измерениями. Мы хотели бы, чтобы эти измерения были независимыми и индивидуально распределенными ( iid ).

отклонение

Теперь вспомним формулу для дисперсии населения (от которой мы получим стандартное отклонение):

σ2знак равноΣязнак равно1N(Икся-μ)2N

Если мы уже центрировали данные на 0, вычитая среднее значение, мы имеем:

σ2знак равноΣязнак равно1N(Икся)2N

dяsTaNсе2 на измерения. «Среднее квадратичное отклонение» также будет подходящим термином.

Среднеквадратичное отклонение

Тогда у нас есть стандартное отклонение, которое является просто квадратным корнем из дисперсии:

σзнак равноΣязнак равно1N(Икся-μ)2N

Что эквивалентно расстоянию , деленному на квадратный корень из степеней свободы:

σзнак равноΣязнак равно1N(Икся)2N

Среднее Абсолютное Отклонение

Среднее абсолютное отклонение (MAD) - это мера дисперсии, которая использует расстояние по Манхэттену, или сумма абсолютных значений отличий от среднего.

MADзнак равноΣязнак равно1N|Икся-μ|N

Опять же, предполагая, что данные центрированы (среднее значение вычтено), мы имеем расстояние по Манхэттену, деленное на количество измерений:

MADзнак равноΣязнак равно1N|Икся|N

обсуждение

  • Среднее абсолютное отклонение составляет около 0,8 раз (на самом деле2/π ) размер стандартного отклонения для нормально распределенного набора данных.
  • Независимо от распределения среднее абсолютное отклонение меньше или равно стандартному отклонению. MAD преуменьшает дисперсию набора данных с экстремальными значениями относительно стандартного отклонения.
  • Среднее абсолютное отклонение более устойчиво к выбросам (т. Е. Выбросы не оказывают такого большого влияния на статистику, как на стандартное отклонение).
  • С геометрической точки зрения, если измерения не являются ортогональными друг другу (например, iid) - например, если бы они были положительно коррелированы, среднее абсолютное отклонение было бы лучшей описательной статистикой, чем стандартное отклонение, которое основывается на евклидовом расстоянии (хотя это обычно считается хорошим ).

Эта таблица отражает вышеуказанную информацию более кратко:

MADσsяZеσMADsяZе,~N+0,8×σ1,25×MADоUTLяерsробUsTяNеLUеNсеdNоT я,я,d,робUsTоК

Комментарии:

У вас есть ссылка на «среднее абсолютное отклонение примерно в 0,8 раза больше стандартного отклонения для нормально распределенного набора данных»? Моделирование, которое я запускаю, показывает, что это неправильно.

Вот 10 симуляций миллиона выборок из стандартного нормального распределения:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

Заключение

Мы предпочитаем квадратные различия при расчете меры дисперсии, потому что мы можем использовать евклидово расстояние, что дает нам лучшую различающую статистику дисперсии. Когда есть более относительно экстремальные значения, евклидово расстояние учитывает это в статистике, тогда как манхэттенское расстояние дает каждому измерению равный вес.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.