Как интерпретировать участки с надрезами

Делая некоторые EDA, я решил использовать рамочный график, чтобы проиллюстрировать разницу между двумя уровнями фактора.

Способ, которым ggplot отображал рамочный график, был удовлетворительным, но немного упрощенным (первый график ниже). Изучая характеристики коробочных участков, я начал экспериментировать с выемками.

Я понимаю, что метки отображают CI вокруг медианы, и что если две метки «метки не перекрывают друг друга, есть« убедительные доказательства »- при уровне достоверности 95% - медианы отличаются.

В моем случае (второй график) вырезы не имеют значительного перекрытия. Но почему нижняя часть коробки с правой стороны принимает эту странную форму?

Отображение тех же данных на графике скрипки не указывало на необычность плотности вероятности соответствующей скрипки.

рис.1 боксплот

рис.2 бокс с надрезом

data-visualization ggplot2 eda

— RDJ
источник

В вашем коде ggplot вы должны использовать fill = factor (am), поскольку в настоящее время am используется как числовая переменная.

— rnso

Это отличное место @rnso

— RDJ

Кто-нибудь может опубликовать исходные данные? Я думаю, они из стандартной песочницы для ggplot2. Мне также нравится идея построения отдельных точек данных, но она разочарована тем, что точки внутри темного блока становятся невидимыми.

— Ник Кокс

В моем случае (второй график) вырезы не имеют значительного перекрытия. Но почему нижняя часть коробки с правой стороны принимает эту странную форму? Как мне это объяснить?

Это указывает на то, что 25-й процентиль составляет около 21, 75-й процентиль - около 30,5. А нижний и верхний пределы выемки составляют около 18 и 27.

Распространенной причиной является то, что ваше распределение искажено или размер выборки низкий. Граница надреза основана на:

$median \pm 1.57 \times \frac{IQR}{\sqrt{n}}$

Если расстояние между медианой и 25-м процентилем и расстояние между медианой и 75-м процентилем чрезвычайно различны (например, справа) и / или размер выборки невелик, вырез будет шире. Если он достаточно широк, чтобы граница надреза была более экстремальной, чем 25-й и 75-й процентили (иначе, прямоугольник), то на графике с надрезом будет отображаться эта форма «наизнанку».

— Penguin_Knight
источник

Большое спасибо за ваше подробное объяснение. Позвольте мне спросить, почему нижний и верхний пределы выемки составляют около 17 и 24, а не около 18 и 27 (на правом коробочном графике)?

— Денис

@Denis, спасибо, что поймали это. Я пересмотрел это.

— Penguin_Knight