Какую информацию предоставляет блочный график, а гистограмма - нет?


13

Гистограммы дают хорошее представление о распределении переменной. Тем не менее, блочные графики пытаются сделать то же самое, но не дают хорошего представления о распределении этой переменной.

Я не понимаю, почему люди используют коробочные участки. Гистограммы лучше во всех отношениях. Есть ли причина, по которой я бы использовал их обоих?

Единственное, что я думаю, что коробочные участки - это выбросы! Он говорит нам, какие наблюдения могут быть выбросами.


1
Гистограмма во всех отношениях хуже, чем представление всего распределения?
Энтони Мартин

2
Зависит от того, что вы хотите, с рамочным графиком у вас могут быть некоторые точные значения (например, медиана, P75), которых у вас нет с гистограммой. Он отображает меньше информации, но более синтетический. Я хочу сказать, что даже гистограмма - это упрощение и трата информации по сравнению со всем распределением. Но это может быть проще в использовании
Энтони Мартин

2
Противоположная точка зрения на полезность гистограмм была убедительно выражена и хорошо проиллюстрирована в высоко оцененном посте на stats.stackexchange.com/a/51753 (который можно найти, выполнив поиск на нашем сайте по «гистограмме»).
whuber

3
Интересная мысль - но увеличение размера ячейки уменьшит гистограмму до фигуры, похожей на коробчатую диаграмму, при этом сохраняя прискорбную зависимость от выбора точек среза. ИМХО, реальные достоинства коробочных графиков лучше всего можно оценить, изучив использование Тьюки N-буквенного резюме для исследовательского анализа многомерных данных и помня, что он рассчитывал с карандашом и бумагой в то время. Для визуализаций, таких как «блуждающий схематический след», другие однофакторные сводки условных ответов, такие как гистограммы или графики скрипки, просто не будут работать.
whuber

1
Два сбоя (imo) гистограммы происходят, когда имеется несколько выборок или когда блоки имеют неправильные размеры. Слабость хорошего коробочного сюжета (и я думаю, что вариативность JMP, когда я это говорю) заключается в мультимодальности и мелких деталях. Одно из мест, где сияет коробочное поле, - это когда образцов мало. Мне также нравится, когда есть несколько взаимодействующих переменных на разных уровнях - таким образом, график изменчивости JMP.
EngrStudent - Восстановить Монику

Ответы:


16

Тот факт, что блочные графики предоставляют больше сводных данных о распределении, также может рассматриваться как преимущество в некоторых случаях. Иногда, когда мы сравниваем распределения, мы не заботимся об общей форме, а о том, где распределения лежат относительно друг друга. Построение квантилей рядом друг с другом может быть полезным способом, не отвлекая нас от других деталей, которые могут нас не волновать.


1
Это лучший ответ. Бокплоты лучше сравнивать распределения, чем гистограммы!
kjetil b halvorsen

14

В одномерном случае блочные диаграммы предоставляют некоторую информацию, которой не предоставляет гистограмма (по крайней мере, не явно). То есть, как правило, он обеспечивает медиану, 25-й и 75-й процентиль, мин / макс, которая не является выбросом и явно разделяет точки, которые считаются выбросами. Все это может быть «очерчено» из гистограммы (и может быть лучше, если в случае выбросов).

Тем не менее, гораздо большее преимущество заключается в сравнении распределений между различными группами одновременно. С 10+ группами это утомительное задание с параллельными гистограммами, но очень легко с коробочными графиками.

Как вы упомянули, участки для игры на скрипке (или в виде бобов) являются несколько более информативными альтернативами. Тем не менее, они требуют немного больше статистических знаний, чем блочные графики (т. Е. Если они представляются нестатистической аудитории, это может быть немного более пугающим), а блочные графики встречаются намного дольше, чем оценщики плотности ядра, и, следовательно, их большая популярность.


3
+1. Исправление, хотя, коробочные участки предоставляют медианы, а не средства.
Greenparker

3
Каждый может быть прав. На коробчатых графиках, как обычно, показаны медианы (я видел, что это отрицается, но не помню, чтобы видел пример). Но некоторые реализации позволяют вам также показать средства. Это часто хорошая идея.
Ник Кокс

Спасибо что подметил это. Я продолжаю (неправильно) думать, что это обычно среднее, что может привести к очень странным сюжетам в крайних случаях.
Клифф AB

1
было бы неплохо, если бы были изображения, которые можно было бы использовать вместе с этим, чтобы показать значение параллельных сравнений с прямоугольниками и гистограммами
Рудольф Олах,

7
  1. Если я покажу вам гистограмму и спрошу вас, где находится медиана, вы можете довольно долго выяснить это ... и тогда вы получите только приблизительное значение. Если я сделаю то же самое с коробочным сюжетом, у вас это будет немедленно; если это то, что вас интересует, очевидно, выигрывают боксы.

  2. Я согласен с тем, что боксплоты не так эффективны, как описание распределения одного образца, так как они уменьшают его до нескольких пунктов, и это мало о чем говорит.

    Тем не менее, если вы сравниваете множество десятков дистрибутивов, все детали каждого из них могут содержать больше информации, чем их легко сравнить - вы можете захотеть сократить информацию до меньшего количества вещей для сравнения.

  3. Если больше информации лучше, есть много лучших вариантов, чем гистограмма; например, стеблевой и листовой график или график ecdf / quantile.

    Или вы можете добавить информацию к гистограмме:

гистограмма с маргинальным блокпостом гистограмма с графиком джиттера гистограмма с полоской

(сюжеты из этого ответа )

Первый из них - добавление узкого поля в поле - дает вам любые преимущества, которые можно получить с любого дисплея.


1

Гистограммы предоставляют только диапазон частоты наблюдений, в то время как блочные графики лучше показывают, где лежат несколько параметров распределения, примерное среднее и отклонения, которые не могут быть представлены гистограммами. Таким образом, блочные графики используются в качестве эффективного сравнительного инструмента, если имеется несколько распределений.


Для коробчатого графика редко бывает показано среднее значение - почти всегда они используют медианы - и они никогда не представляют непосредственно отклонения. Также обратите внимание, что эти количества обычно не считаются «параметрами распределения»: они представляют собой описательную статистику для пакета данных .
uber

Точно, они являются хорошим инструментом для описания дистрибутива без дополнительных вычислений. И они отображают медианы больше, и поскольку во многих случаях оба показателя совпадают, квадратные диаграммы также являются хорошим инструментом для аппроксимации среднего значения.
Shiv_90

Ваш комментарий, похоже, продолжает путать данные с основным дистрибутивом . Очень редко среднее значение равно медиане в любой партии данных. Более того, одно из лучших и наиболее распространенных применений бокс-графика - выявить асимметрию, которая обычно подразумевает важное различие между средним и медианным. Один из фундаментальных принципов, лежащих в основе первоначальной концепции коробчатого графика, заключается в том, что он является надежным исследовательским инструментом, что подразумевает, что его лучше не основывать на конфиденциальной статистике, такой как среднее значение или дисперсия.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.