Как оценить асимметрию с коробочного участка?

Как определить асимметрию, посмотрев на коробочную диаграмму, построенную из этих данных:

340, 300, 520, 340, 320, 290, 260, 330

Одна книга гласит: «Если нижний квартиль находится дальше от медианы, чем верхний квартиль, то распределение отрицательно искажено». Несколько других источников сказали более или менее то же самое.

Я построил блокпост с использованием R. Это похоже на следующее:

коробчатого участок

Я полагаю, что это имеет отрицательный перекос , потому что нижний квартиль находится дальше от медианы, чем верхний квартиль. Но проблема в том, когда я использую другой метод для определения асимметрии:

среднее (337,5)> медиана (325)

Это указывает на то, что данные положительно искажены . Я что-то пропустил?

outliers skewness boxplot

— JerryW
источник

Ответы:

Один из показателей асимметрии основан на средней медиане - втором коэффициенте асимметрии Пирсона .

Другая мера асимметрии основана на относительных квартильных различиях (Q3-Q2) и (Q2-Q1), выраженных в виде отношения

$u=0.25$

Самая распространенная мера - это, конечно, асимметрия третьего момента .

Нет причин, по которым эти три показателя обязательно будут последовательными. Любой из них может отличаться от двух других.

То, что мы рассматриваем как «асимметрия», является несколько скользкой и плохо определенной концепцией. Смотрите здесь для дальнейшего обсуждения.

Если мы посмотрим на ваши данные обычным qqplot:

введите описание изображения здесь

[Линия, отмеченная там, основана только на первых 6 точках, потому что я хочу обсудить отклонение последних двух от схемы там.]

Мы видим, что самые маленькие 6 точек лежат почти идеально на линии.

Тогда седьмая точка находится ниже линии (ближе к середине относительно соответствующей второй точки слева), а восьмая точка находится выше.

Седьмая точка указывает на умеренный перекос влево, последний, более сильный перекос вправо. Если вы игнорируете какую-либо точку, впечатление асимметрии полностью определяется другой.

Если бы мне пришлось сказать, что это один или другой, я бы назвал это «правильным перекосом», но я бы также отметил, что впечатление было полностью связано с эффектом этого очень большого пункта. Без этого действительно нечего сказать, что это правильно. (С другой стороны, без 7-й точки, это явно не оставил перекос.)

Мы должны быть очень осторожны, когда наше впечатление полностью определяется отдельными точками и может быть перевернуто, удалив одну точку. Это не так уж много оснований для продолжения!

Я начну с предпосылки, что то, что делает выделение «внешним», является моделью (то, что выделяется в отношении одной модели, может быть довольно типичным для другой модели).

Я думаю, что наблюдение на верхнем процентиле 0,01 (1/10000) от нормы (на 3,72 с.д. выше среднего) в равной степени является отклонением от нормальной модели, поскольку наблюдение на верхнем процентиле 0,01 экспоненциального распределения относится к экспоненциальной модели. (Если мы преобразуем распределение своим собственным интегральным преобразованием вероятности, каждое из них перейдет к одной и той же форме

Чтобы увидеть проблему с применением правила boxplot даже для умеренно правильного асимметричного распределения, смоделируйте большие выборки из экспоненциального распределения.

Например, если мы моделируем выборки размером 100 от нормы, мы в среднем имеем менее 1 выброса на выборку. Если мы делаем это с экспоненциальной, мы в среднем около 5. Но нет никакой реальной основы, чтобы сказать, что большая часть экспоненциальных значений является «отдаленной», если мы не сделаем это по сравнению с (скажем) нормальной моделью. В определенных ситуациях у нас могут быть конкретные причины иметь правило выброса какой-то конкретной формы, но нет общего правила, которое оставляет нас с общими принципами, такими как тот, с которого я начал в этом подразделе - обрабатывать каждую модель / распределение по-своему (если значение не является необычным в отношении модели, зачем называть его выбросом в этой ситуации?)

Чтобы перейти к вопросу в заголовке :

Несмотря на то, что это довольно грубый инструмент (именно поэтому я посмотрел на график QQ), есть несколько признаков асимметрии в блокпосте - если хотя бы одна точка помечена как выброс, потенциально есть (как минимум) три:

введите описание изображения здесь

В этом примере (n = 100) внешние точки (зеленые) отмечают крайности, а медиана указывает на левую асимметрию. Затем заборы (синие) предполагают (в сочетании со срединным) предложить правильную асимметрию. Затем петли (квартили, коричневые) предполагают левую асимметрию в сочетании с медианой.

Как мы видим, они не должны быть последовательными. На чем вы сосредоточитесь, зависит от ситуации, в которой вы находитесь (и, возможно, от ваших предпочтений).

Тем не менее, предупреждение о том, насколько грубый бокс-заговор. Пример к концу здесь - который включает в себя описание того , как генерировать данные - дает четыре совершенно разные распределения с той же boxplot:

введите описание изображения здесь

Как вы можете видеть, существует довольно искаженное распределение со всеми вышеупомянутыми индикаторами асимметрии, показывающими идеальную симметрию.

Давайте возьмем это с точки зрения «какого ответа ожидал ваш учитель, учитывая, что это блокпост, который помечает одно очко как выброс?».

У нас остается первый ответ: «Они ожидают, что вы оцените асимметрию, исключая эту точку, или с ее помощью в образце?». Некоторые исключили бы это и оценили асимметрию из того, что осталось, как jsk сделал в другом ответе. Хотя у меня есть спорные аспекты этого подхода, я не могу сказать, что это неправильно - это зависит от ситуации. Некоторые включили бы это (не в последнюю очередь потому, что исключение 12,5% вашей выборки из-за правила, полученного из нормальности, кажется большим шагом *).

* Представьте себе популяционное распределение, которое симметрично, за исключением крайне правого хвоста (я построил один такой, отвечая на это - нормальный, но с крайним правым хвостом, как Парето - но не представил его в своем ответе). Если я рисую образцы размером 8, часто 7 наблюдений происходят из нормально выглядящей части, а одна - из верхнего хвоста. Если в этом случае мы исключаем точки, помеченные как выпадающие в виде квадрата, мы исключаем точку, которая говорит нам о том, что на самом деле это перекос! Когда мы это сделаем, усеченное распределение, которое остается в этой ситуации, является левосторонним, и наш вывод будет противоположен правильному.

— Glen_b - Восстановить Монику
источник

@jsk Это зависит от того, как вы хотите измерить асимметрию. Поскольку степень асимметрии частично определяется внешними точками (склонность к тому, чтобы быть более отдаленными в одном направлении, чем в другом), удаление их, возможно, пропускает точку измерения асимметрии. Более подробное обсуждение и анализ в моем обновленном посте. Если вы не уверены, пожалуйста, не стесняйтесь, такие обмены часто ценны.

— Glen_b

@Glen_b Хотя я, безусловно, уважаю и понимаю вашу позицию, я верю, что есть разумный аргумент для оценки перекоса после удаления выброса, в отличие от ранее. После удаления выброса распределение будет все еще иметь отрицательный перекос после удаления 7-й точки (260). Вы проверяли qqplot и / или сравнивали среднее значение и медиану?

— Jsk

Возможно, после удаления 7-го дела дело обстоит довольно слабо, но я не вижу причин, чтобы оправдывать оценку перекоса после его удаления. Это не исключение, хотя суть в том, что меры перекоса, независимо от того, как вы смотрите на них в этом случае, определяются единичными точками.

— JSK

@Glen_ b Q3 + 1.5IQR - это типичное эмпирическое правило, которое преподается на этом уровне для определения выбросов в верхнем хвосте. Удалять их или нет - другое дело. Вы утверждаете, что распределение правильно искажено, потому что среднее значение больше? Зачем игнорировать тот факт, что Q1 дальше от Q2, чем Q3?

— Jsk

Я хочу объяснить, что находится рядом с поверхностью, но не совсем: часто коробочные графики слишком сильно уплотняются, поэтому вам, возможно, придется посмотреть и на все данные.

— Ник Кокс

Нет, вы ничего не пропустили: вы действительно видите за упрощенными резюме, которые были представлены. Эти данные искажены как положительно, так и отрицательно (в смысле «асимметрии», что предполагает некоторую асимметрию в распределении данных).

Джон Тьюки описал систематический способ изучения асимметрии в пакетах данных с помощью своего «N-числового резюме». Сюжетная диаграмма представляет собой график из 5 чисел и, следовательно, поддается этому анализу.

$M$ $H^{+}$ $H^{-}$ $X^{+}$ $X^{-}$ $T_i^{+}$ $i$ $T_i^{+}$ $T_i^{-}$ $M = M^{+}=M^{-}$ $(T_i^{+} + T_i^{-})/2$ $i$

Чтобы применить эту идею к блокпосту, просто нарисуйте средние точки каждой пары соответствующих частей: медиану (которая уже есть), среднюю точку петель (концы рамки, показаны синим цветом) и среднюю точку крайностей (показано красным).

Boxplot

В этом примере более низкое значение среднего шарнира по сравнению с медианой указывает на то, что середина партии слегка отклонена отрицательно (подтверждая тем самым оценку, приведенную в вопросе, и в то же время соответствующим образом ограничивая ее область до середины партии ) в то время как (намного) более высокое значение среднего экстремума указывает на то, что хвосты партии (или, по крайней мере, ее крайние значения) имеют положительный перекос (хотя при ближайшем рассмотрении это происходит из-за одного высокого выброса). Хотя это почти тривиальный пример, относительная богатство этой интерпретации по сравнению с одной статистикой «асимметрии» уже раскрывает описательную силу этого подхода.

При небольшом объеме практики вам не нужно рисовать эти средние статистические данные: вы можете представить, где они находятся, и прочитать полученную информацию об асимметрии непосредственно с любого коробочного графика.

$M$ $H$ $E$ $D$ $X$ $i=1, 2, 3, 4, 5$ , Диаграмма слева на следующем рисунке является диагностической диаграммой для середин этих парных статистических данных. С ускоряющегося уклона становится ясно, что данные становятся все более и более позитивно искаженными, когда мы достигаем их хвостов.

фигура 2

На среднем и правом графиках показано то же самое для квадратных корней ( данных, а не статистики среднего числа!) И (основание-10) логарифмов. Относительная стабильность значений корней (обратите внимание на сравнительно небольшой вертикальный диапазон и уровень, наклоненный посередине) указывает на то, что эта серия из 219 значений становится приблизительно симметричной как в ее средних частях, так и во всех частях ее хвостов, почти до крайности, когда высоты повторно выражены в виде квадратных корней. Этот результат является сильной - почти убедительной - основой для продолжения дальнейшего анализа этих высот с точки зрения их квадратных корней.

Среди прочего, эти графики показывают что-то количественное в отношении асимметрии данных: в исходном масштабе они сразу же показывают различную асимметрию данных (что ставит под сомнение полезность использования единой статистики для характеристики ее асимметрии), тогда как на По квадратно-коренной шкале данные близки к симметричным относительно их середины - и поэтому их можно кратко суммировать с помощью пятизначной сводки или, что то же, в виде коробочного графика. Склонность снова заметно изменяется в логарифмическом масштабе, показывая, что логарифм является слишком «сильным» способом повторного выражения этих данных.

Обобщение коробочного сюжета до семи-, девяти и более числовых сводок сделать просто. Тьюки называет их «схематическими заговорами». Сегодня многие сюжеты служат аналогичной цели, включая резервные, такие как сюжеты QQ, и относительные новинки, такие как «бобовые сюжеты» и «скрипичные сюжеты». (Даже низкую гистограмму можно использовать для этой цели.) Используя точки из таких графиков, можно детально оценить асимметрию и выполнить аналогичную оценку способов повторного выражения данных.

— Whuber
источник

Среднее значение, меньшее или большее, чем медиана, представляет собой ярлык, который часто работает для определения направления перекоса, если нет выбросов. В этом случае распределение отрицательно искажено, но среднее значение больше медианы из-за выброса.

— JSK
источник

Это объясняет В книгах, которые я читал, об этом вообще не упоминалось!

— JerryW

Надеемся, что в книгах хотя бы упоминается, что среднее намного менее устойчиво к выбросам, чем медиана!

— JSK

То, считается ли это отрицательным перекосом, зависит от того, как вы измеряете асимметрию.

— Glen_b

Справедливо. Это небольшой набор данных, который делает особенно сложным оценку асимметрии. Я предполагаю, что этот пример был, к сожалению, добавлен туда только по причине наличия противоречивых эмпирических правил для определения перекоса

— jsk

Я согласен, что такие небольшие наборы данных могут усложнить задачу, но вполне возможно создать непрерывные распределения, которые одинаково сложны.

— Glen_b