Зачем возводить в квадрат разницу, а не принимать абсолютное значение в стандартном отклонении?
Мы возводим в квадрат разницу значений x от среднего, потому что евклидово расстояние, пропорциональное квадратному корню из степеней свободы (число x в измерении населенности), является наилучшей мерой дисперсии.
Расчет расстояния
Каково расстояние от точки 0 до точки 5?
- 5 - 0 = 5
- | 0-5 | =5
- 52--√= 5
Хорошо, это тривиально, потому что это одно измерение.
Как насчет расстояния для точки в точке 0, 0 до точки 3, 4?
Если мы можем идти только в одном измерении за раз (как в городских кварталах), тогда мы просто сложим числа. (Это иногда называют манхэттенским расстоянием).
Но как насчет двух измерений одновременно? Затем (по теореме Пифагора, которую мы все изучили в старшей школе), мы возводим в квадрат расстояние в каждом измерении, суммируем квадраты, а затем берем квадратный корень, чтобы найти расстояние от начала координат до точки.
32+ 42------√= 25--√= 5
Как насчет расстояния от точки в 0, 0, 0 до точки 1, 2, 2?
Это только
12+ 22+ 22----------√= 9-√= 3
потому что расстояние для первых двух иксов образует ногу для вычисления общего расстояния с последним х.
Икс21+ х22------√2+ х23-------------√= х21+ х22+ х23----------√
Мы можем продолжить расширять правило возведения в квадрат расстояния каждого измерения, которое обобщает то, что мы называем евклидовым расстоянием, для ортогональных измерений в гиперразмерном пространстве, например так:
dя с т п с е = Σя = 1NИкс2я-----√
и поэтому сумма ортогональных квадратов является квадратом расстояния:
dя с T н с й2= ∑я = 1NИкс2я
Что делает измерение ортогональным (или под прямым углом) к другому? Условие состоит в том, что нет никакой связи между этими двумя измерениями. Мы хотели бы, чтобы эти измерения были независимыми и индивидуально распределенными ( iid ).
отклонение
Теперь вспомним формулу для дисперсии населения (от которой мы получим стандартное отклонение):
σ2= ∑я = 1N( хя- μ )2N
Если мы уже центрировали данные на 0, вычитая среднее значение, мы имеем:
σ2= ∑я = 1N(хя)2N
dя с T н с й2 на измерения. «Среднее квадратичное отклонение» также будет подходящим термином.
Среднеквадратичное отклонение
Тогда у нас есть стандартное отклонение, которое является просто квадратным корнем из дисперсии:
σ= ∑я = 1N( хя- μ )2N-----------⎷
Что эквивалентно расстоянию , деленному на квадратный корень из степеней свободы:
σ= ∑я = 1N( хя)2-------√N--√
Среднее Абсолютное Отклонение
Среднее абсолютное отклонение (MAD) - это мера дисперсии, которая использует расстояние по Манхэттену, или сумма абсолютных значений отличий от среднего.
MA D = ∑я = 1N| Икся- μ |N
Опять же, предполагая, что данные центрированы (среднее значение вычтено), мы имеем расстояние по Манхэттену, деленное на количество измерений:
MA D = ∑я = 1N| Икся|N
обсуждение
- Среднее абсолютное отклонение составляет около 0,8 раз (на самом деле2 / π---√ ) размер стандартного отклонения для нормально распределенного набора данных.
- Независимо от распределения среднее абсолютное отклонение меньше или равно стандартному отклонению. MAD преуменьшает дисперсию набора данных с экстремальными значениями относительно стандартного отклонения.
- Среднее абсолютное отклонение более устойчиво к выбросам (т. Е. Выбросы не оказывают такого большого влияния на статистику, как на стандартное отклонение).
- С геометрической точки зрения, если измерения не являются ортогональными друг другу (например, iid) - например, если бы они были положительно коррелированы, среднее абсолютное отклонение было бы лучшей описательной статистикой, чем стандартное отклонение, которое основывается на евклидовом расстоянии (хотя это обычно считается хорошим ).
Эта таблица отражает вышеуказанную информацию более кратко:
с я гес я ге , ~ Nо у т л я е р ып о т я . я . d ,MA D≤ σ.8 × σг о б у с тг о б у с тσ≥ MA D1,25 × МA Dя н фл у й н с й до к
Комментарии:
У вас есть ссылка на «среднее абсолютное отклонение примерно в 0,8 раза больше стандартного отклонения для нормально распределенного набора данных»? Моделирование, которое я запускаю, показывает, что это неправильно.
Вот 10 симуляций миллиона выборок из стандартного нормального распределения:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
Заключение
Мы предпочитаем квадратные различия при расчете меры дисперсии, потому что мы можем использовать евклидово расстояние, что дает нам лучшую различающую статистику дисперсии. Когда есть более относительно экстремальные значения, евклидово расстояние учитывает это в статистике, тогда как манхэттенское расстояние дает каждому измерению равный вес.