Один из показателей асимметрии основан на средней медиане - втором коэффициенте асимметрии Пирсона .
Другая мера асимметрии основана на относительных квартильных различиях (Q3-Q2) и (Q2-Q1), выраженных в виде отношения
и = 0,25
Самая распространенная мера - это, конечно, асимметрия третьего момента .
Нет причин, по которым эти три показателя обязательно будут последовательными. Любой из них может отличаться от двух других.
То, что мы рассматриваем как «асимметрия», является несколько скользкой и плохо определенной концепцией. Смотрите здесь для дальнейшего обсуждения.
Если мы посмотрим на ваши данные обычным qqplot:
[Линия, отмеченная там, основана только на первых 6 точках, потому что я хочу обсудить отклонение последних двух от схемы там.]
Мы видим, что самые маленькие 6 точек лежат почти идеально на линии.
Тогда седьмая точка находится ниже линии (ближе к середине относительно соответствующей второй точки слева), а восьмая точка находится выше.
Седьмая точка указывает на умеренный перекос влево, последний, более сильный перекос вправо. Если вы игнорируете какую-либо точку, впечатление асимметрии полностью определяется другой.
Если бы мне пришлось сказать, что это один или другой, я бы назвал это «правильным перекосом», но я бы также отметил, что впечатление было полностью связано с эффектом этого очень большого пункта. Без этого действительно нечего сказать, что это правильно. (С другой стороны, без 7-й точки, это явно не оставил перекос.)
Мы должны быть очень осторожны, когда наше впечатление полностью определяется отдельными точками и может быть перевернуто, удалив одну точку. Это не так уж много оснований для продолжения!
Я начну с предпосылки, что то, что делает выделение «внешним», является моделью (то, что выделяется в отношении одной модели, может быть довольно типичным для другой модели).
Я думаю, что наблюдение на верхнем процентиле 0,01 (1/10000) от нормы (на 3,72 с.д. выше среднего) в равной степени является отклонением от нормальной модели, поскольку наблюдение на верхнем процентиле 0,01 экспоненциального распределения относится к экспоненциальной модели. (Если мы преобразуем распределение своим собственным интегральным преобразованием вероятности, каждое из них перейдет к одной и той же форме
Чтобы увидеть проблему с применением правила boxplot даже для умеренно правильного асимметричного распределения, смоделируйте большие выборки из экспоненциального распределения.
Например, если мы моделируем выборки размером 100 от нормы, мы в среднем имеем менее 1 выброса на выборку. Если мы делаем это с экспоненциальной, мы в среднем около 5. Но нет никакой реальной основы, чтобы сказать, что большая часть экспоненциальных значений является «отдаленной», если мы не сделаем это по сравнению с (скажем) нормальной моделью. В определенных ситуациях у нас могут быть конкретные причины иметь правило выброса какой-то конкретной формы, но нет общего правила, которое оставляет нас с общими принципами, такими как тот, с которого я начал в этом подразделе - обрабатывать каждую модель / распределение по-своему (если значение не является необычным в отношении модели, зачем называть его выбросом в этой ситуации?)
Чтобы перейти к вопросу в заголовке :
Несмотря на то, что это довольно грубый инструмент (именно поэтому я посмотрел на график QQ), есть несколько признаков асимметрии в блокпосте - если хотя бы одна точка помечена как выброс, потенциально есть (как минимум) три:
В этом примере (n = 100) внешние точки (зеленые) отмечают крайности, а медиана указывает на левую асимметрию. Затем заборы (синие) предполагают (в сочетании со срединным) предложить правильную асимметрию. Затем петли (квартили, коричневые) предполагают левую асимметрию в сочетании с медианой.
Как мы видим, они не должны быть последовательными. На чем вы сосредоточитесь, зависит от ситуации, в которой вы находитесь (и, возможно, от ваших предпочтений).
Тем не менее, предупреждение о том, насколько грубый бокс-заговор. Пример к концу здесь - который включает в себя описание того , как генерировать данные - дает четыре совершенно разные распределения с той же boxplot:
Как вы можете видеть, существует довольно искаженное распределение со всеми вышеупомянутыми индикаторами асимметрии, показывающими идеальную симметрию.
-
Давайте возьмем это с точки зрения «какого ответа ожидал ваш учитель, учитывая, что это блокпост, который помечает одно очко как выброс?».
У нас остается первый ответ: «Они ожидают, что вы оцените асимметрию, исключая эту точку, или с ее помощью в образце?». Некоторые исключили бы это и оценили асимметрию из того, что осталось, как jsk сделал в другом ответе. Хотя у меня есть спорные аспекты этого подхода, я не могу сказать, что это неправильно - это зависит от ситуации. Некоторые включили бы это (не в последнюю очередь потому, что исключение 12,5% вашей выборки из-за правила, полученного из нормальности, кажется большим шагом *).
* Представьте себе популяционное распределение, которое симметрично, за исключением крайне правого хвоста (я построил один такой, отвечая на это - нормальный, но с крайним правым хвостом, как Парето - но не представил его в своем ответе). Если я рисую образцы размером 8, часто 7 наблюдений происходят из нормально выглядящей части, а одна - из верхнего хвоста. Если в этом случае мы исключаем точки, помеченные как выпадающие в виде квадрата, мы исключаем точку, которая говорит нам о том, что на самом деле это перекос! Когда мы это сделаем, усеченное распределение, которое остается в этой ситуации, является левосторонним, и наш вывод будет противоположен правильному.