Как определить, симметрично ли распределение данных?


23

Я знаю, что если медиана и среднее значение приблизительно равны, то это означает, что существует симметричное распределение, но в данном конкретном случае я не уверен. Среднее значение и медиана довольно близки (разница составляет всего 0,487 м / галл), что заставляет меня сказать, что существует симметричное распределение, но, глядя на коробочный график, похоже, что оно слегка положительно перекошено (медиана ближе к Q1, чем к Q3, что подтверждается по значениям).

(Я использую Minitab, если у вас есть какой-то конкретный совет для этого программного обеспечения.)


Ортогональный комментарий к детали: в каких единицах м / галл? Это похоже на метры на галлон, и я заинтригован.
Ник Кокс

Здесь серьезное ограничение, что на боксах обычно не видно никаких средств!
Ник Кокс

Каково это стандартное отклонение ваших данных? Если значение 0,487 м / галл намного меньше вашего стандартного отклонения, то, вероятно, у вас есть основания полагать, что ваше распределение может быть симметричным. Если это значение намного больше вашего стандартного отклонения (или MAD, или любого другого показателя отклонения, на который вы смотрите), возможно, дальнейшее изучение симметрии распределения - это потеря времени.
usεr11852 говорит восстановить Monic

1
70,63,56,49,42,35,28,21,14,7,0,1,4,9,16,25,36,49,64,81,100 является умышленно не симметричный (равномерный в нижней половине, но не в верхней половине), и прямоугольник может поставить медиану (равную среднему значению) ближе к верхнему квартилю, чем нижний квартиль, но также ближе к минимуму, чем максимум.
Генри

@NickCox это также может быть миллигал с опечаткой. Это было бы почти 500 гал! Или менее г. (Конечно, как отмечалось выше, без некоторой шкалы дисперсии, такой как MAD, невозможно узнать, что может быть «значительным».)10 - 4μ104
GeoMatt22

Ответы:


29

Без сомнения, вам сказали иначе, но среднее значение медиана не подразумевает симметрию.=

Существует мера асимметрии, основанная на среднем минус медиана (вторая асимметрия Пирсона), но она может быть 0, когда распределение не симметрично (как любая из общих мер асимметрии).

Точно так же, отношения между средним и медианой не обязательно подразумевают аналогичные отношения между серединой ( ) и медианой. Они могут предложить противоположную асимметрию, или один может равняться медиане, а другой нет.(Q1+Q3)/2

Одним из способов исследования симметрии является использование графика симметрии *.

Если являются упорядоченными наблюдениями от наименьшего к наибольшему (статистика порядка), а является медианой, то строится график симметрии против , против , ... и так далее. M Y ( n ) - M M - Y ( 1 ) Y ( n - 1 ) - M M - Y ( 2 )Y(1),Y(2),...,Y(n)MY(n)MMY(1)Y(n1)MMY(2)

* Minitab может сделать это . Действительно, я поднимаю этот сюжет как возможность, потому что я видел их в Minitab.

Вот четыре примера:

Symmetry plots
Графики симметрии вышеуказанного типа для выборок из четырех распределений

(Фактические распределения были (слева направо, сначала верхний ряд) - Laplace, Gamma (форма = 0,8), бета (2,2) и бета (5,2). Код Росса Ихаки, отсюда )

С симметричными примерами с тяжелыми хвостами часто бывает так, что самые крайние точки могут быть очень далеко от линии; вы бы меньше обращали внимание на расстояние от линии в одну или две точки, когда вы находитесь в правом верхнем углу фигуры.

Конечно, есть и другие сюжеты (я упомянул сюжет симметрии не из особого смысла адвокации этого конкретного, а потому, что знал, что он уже реализован в Minitab). Итак, давайте рассмотрим некоторые другие.

Вот соответствующие сценарии, которые Ник Кокс предложил в комментариях:

Skewness plots
Графики асимметрии, как предложил Ник Кокс в комментариях

На этих графиках тренд вверх будет означать, как правило, более тяжелый правый хвост, чем левый, а тренд вниз будет означать, как правило, более тяжелый левый хвост, чем правый, в то время как симметрия будет предложена на относительно плоском (хотя, возможно, довольно шумном) графике.

Ник предполагает, что этот сюжет лучше (конкретно «более прямой»). Я склонен согласиться; следовательно, интерпретация графика выглядит немного проще, хотя информация на соответствующих графиках часто очень похожа (после того, как вы вычли наклон единицы в первом наборе, вы получите нечто очень похожее на второй набор).

[Конечно, ни одна из этих вещей не скажет нам, что распределение, из которого были взяты данные, фактически симметрично; мы получаем указание на то, насколько близка симметричная выборка, и поэтому в этой степени мы можем судить, насколько данные соответствуют разумным данным, взятым из почти симметричной популяции.]


3
@ user72943 Если вы полностью удовлетворены этим, не забудьте вернуться и выбрать ответ Glen_b. Возможно, вы захотите немного подождать, чтобы узнать, отправит ли кто-нибудь лучший ответ, но Glen_b получит больше кредитов, если вы примете ответ.
Уэйн

3
+

6
(Y(n+1i)+Y(i))/2in/2,n/4,n/8, и так далее). В некотором смысле этот график лучше, чем график симметрии, поскольку он отфильтровывает избыток деталей и помогает зрителю сосредоточиться на том, как изменяется симметрия (или ее отсутствие) при выходе из хвоста. Он имеет дополнительное преимущество, заключающееся в том, что он может быть легко и быстро вычислен, как только в руках будет n-буквенное резюме, которое, в свою очередь, может быть прочитано непосредственно из сюжетной линии.
whuber

1
@whuber и я говорим об одной и той же основной идее. Разница между построением всей статистики парных заказов (на практике это не сильно отвлекает) или только некоторыми.
Ник Кокс

1
Ссылки в stata-journal.com/sjpdf.html?articlenum=gr0003 и для пользователей Stata в документации для skewplot(SSC). Идея восходит, по крайней мере, к предложению, приписанному Дж. У. Тьюки в Wilk, MB and Gnanadesikan, R. 1968. Методы построения вероятности для анализа данных. Биометрика 55: 1-17.
Ник Кокс

6

Проще всего вычислить асимметрию образца . Для этого в Minitab есть функция. Симметричные распределения будут иметь нулевую асимметрию. Нулевая асимметрия не обязательно означает симметричный, но в большинстве практических случаев это будет.

Как отметил @NickCox, существует более одного определения асимметрии. Я использую тот, который совместим с Excel , но вы можете использовать любой другой.


2
Я думаю, что это нужно изложить. В частности, нет такой вещи, как «асимметрия». Есть много мер, и даже необычные часто полезны или интересны, как обычные (например, L-моменты). Те искушению отношении стандартизирован третьего момента , как в мере (и это мой по умолчанию, тоже) следует отметить , что для Карла Пирсона, и для многих других авторов и в 20 век, перекос чаще всего измеряется по отношению к режиму.
Ник Кокс

Любой коэффициент асимметрии, помимо недостатка мощности для обнаружения асимметрии (как вы правильно заметили), также страдает от (чрезвычайно) неустойчивости, поскольку он основан на третьем моменте выборки. Кроме того, поскольку симметрия может быть нарушена многими (и интересными) способами, единственная числовая характеристика симметрии является плохой заменой более богатой графической диагностики, описанной в литературе по исследованию поисковых данных.
whuber

1

Сосредоточьте свои данные около нуля, вычитая из выборочного среднего. Теперь разделите ваши данные на две части, отрицательную и положительную. Возьмите абсолютное значение отрицательных точек данных. Теперь проведите двухэлементный тест Колмогорова-Смирнова, сравнив два раздела друг с другом. Сделайте свой вывод на основе р-значения.


0

Поместите ваши наблюдения, отсортированные по возрастающим значениям, в один столбец, а затем поместите их, отсортированные по убывающим значениям, в другой столбец.
Затем вычислите коэффициент корреляции (назовите его Rm) между этими двумя столбцами.
Вычислить хиральный индекс: CHI = (1 + Rm) / 2.
CHI принимает значения в интервале [0..1].
CHI является нулевым, ЕСЛИ И ТОЛЬКО ЕСЛИ ваш образец распределен симметрично.
Нет необходимости третьего момента.
Теория:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(большинство работ, цитируемых на этих двух страницах, можно скачать в формате pdf).
Надеюсь помогает, даже в последнее время.


Разве корреляция, Rm, не обязательно будет отрицательной? Я не вижу, как CHI может быть 1, если Rm не было 1, но так как сортировка col1 увеличивается, а сортировка col2 уменьшается, RM <= 0, что означает, что CHI будет принимать значения в [0, .5]. Я что-то пропустил?
gung - Восстановить Монику

Да, Rm не может быть положительным, а CHI не может превышать 1/2 для распределений случайных величин, принимающих значения на вещественной линии. Фактически верхняя оценка 1 происходит из общей теории, вводящей киральный индекс. Это имеет смысл для распределений случайных величин, принимающих значения в более общем пространстве. Эта теория выходит за рамки настоящего обсуждения, но она представлена ​​на двух веб-страницах, которые я упоминал ранее.
Петитжан

Пожалуйста, зарегистрируйте и / или объедините свои учетные записи (информацию о том, как это сделать, вы можете найти в разделе « Моя учетная запись » нашего справочного центра ), и тогда вы сможете редактировать и комментировать свой собственный вопрос.
gung - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.