Правила «когда использовать боксплот и когда барплот» (большого пальца?)


14

Оба коробчатые и усы- график и гистограмма являются соответствующими графиками для ANOVA в соответствии с R Book (Кроули, 2013), но который является более подходящим ? Я полагаю, это зависит от ситуации ... кто-нибудь может мне помочь?


5
« Хотя одну проблему можно решить с помощью нескольких альтернативных тестов - всегда есть только один тест, который является наиболее подходящим для использования » - я бы не согласился с этим предложением; Я не думаю, что это всегда правда.
Glen_b

5
Я согласен с @Glen_b здесь и предполагаю, что даже эта формулировка упускает ключевой момент. Определение наиболее подходящего теста минимально зависит от знания точного процесса генерации данных, что, скажем так, необычно. Чаще всего существует несколько возможных испытаний с различными преимуществами и недостатками.
Ник Кокс

1
Я не думаю, что я бы даже упомянул (гипотезу или значимость) тесты в какой-либо краткой характеристике хорошего статистического мышления ... Однако я думаю, что это побочный вопрос. Ваш вопрос достаточно ясен без него.
Ник Кокс

Ответы:


18

Специально для графической иллюстрации ANOVA:

  • Квадратный график или гистограмма для ANOVA гораздо лучше, чем ничего графически, но, как правило, оба графика являются косвенными или неполными в виде графического резюме.

  • ANOVA - это сравнение средств в контексте вариаций одного или нескольких видов, поэтому наиболее подходящий график будет показывать, как минимум, средства, а также необработанные данные. Групповые стандартные отклонения (SD) или связанные с ними величины не причинят вреда.

  • Несмотря на то, что некоторые разновидности коробочных графиков показывают как средние, так и средние значения, стандартный вид показывает медианы, квартили и некоторую информацию в хвостах распределения. Наиболее распространенным вариантом, по-видимому, является тот, в котором отдельные точки данных отображаются тогда и только тогда, когда они находятся на расстоянии более 1,5 IQR от ближайшего квартиля. То есть: межквартильный диапазон IQR верхний квартиль нижний квартиль, поэтому нарисуйте в виде значений точек больше верхнего квартиля 1,5 IQR или меньше нижнего квартиля- + -=+1,5 IQR. Такое соглашение может быть полезным при выявлении грубых выбросов, которые могут быть проблематичными для ANOVA, но ни медианы, ни квартили не играют никакой роли в ANOVA, и вопрос о том, является ли приблизительное среднее значение медиан, является точкой, которую нужно проверять, а не предполагать. Как правило, опытные аналитики данных принимают, например, ярко выраженные выбросы и / или асимметрию распределения в качестве признака проблемы, которая требует действий, таких как преобразование данных или необходимость в обобщенной линейной модели с функцией связи без идентификации. Тем не менее, удивительно, как много учебников и других учетных записей показывают графические изображения при представлении ANOVA, но не упоминают о слонах, которых нет в комнате, о средствах, которые не представлены на графике.

  • И наоборот, наиболее распространенный вид гистограммы в этом контексте суммирует данные с помощью средних значений и SD или стандартных ошибок, но в противном случае пропускает отображение отдельных точек данных. Так, например, выбросы или отмеченная асимметрия могут быть выведены только из средних значений или завышенной изменчивости в отдельных группах.

Как правило, есть много предложений о том, какие графы полезны, но нет единого мнения о том, какие из них лучше Я бы предложил в качестве критерия хороший график

  • Полная структура изменений в данных, по крайней мере, в качестве фона или контекста

  • Соответствующие сводки данных, особенно те, которые относятся к модели, которую развлекают, или дескрипторы, которые рассматриваются

  • Указания на возможные проблемы с данными, которые ставят под сомнение сделанные предположения.

Есть несколько проектов, которые помогают с ANOVA, такие как точечные или полосовые графики с добавленными средствами и SE.

Эта статья Джона Тьюки объясняет разницу между пропагандистскими и аналитическими графами, которая уместна здесь. Слишком много графических иллюстраций ANOVA являются пропагандистскими графами (смотрите! Группы очень разные) без особого анализа (и что еще мы можем узнать о данных или ограничениях метода в этом приложении?).


Так как насчет участков для скрипки с, в идеале, средним, sd и нарисованными выбросами?
Ziggystar

Сюжеты для скрипки могут быть полезны. Лично я предпочитаю что-то ближе к необработанным данным, так что я также вижу модальность и детализацию.
Ник Кокс

8

Пожалуйста, не перепутайте гистограммы (один столбец используется для отображения каждого интересующего вас количества) и динамитные графики (один столбец показывает среднее значение по каждой группе плюс столбцы ошибок). Графики динамита НИКОГДА не приемлемы, потому что они скрывают распределение данных без всякой причины.

Да, я понимаю, что это наиболее распространенный тип сюжета. Это большая проблема, которая отражает (низкую) важность, которую исследователи придают форме своих данных. Если бы вы были детективом, ищущим орудие убийства, было бы лучше, если бы свидетель сказал вам 1) только местонахождение и размер оружия? или 2) расположение, размер и форма?

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf


У вас есть другие ресурсы о том, почему динамитные участки не идеальны?
Mguzmann

@mguzmann Извините, нет. Я также задавался вопросом, кто придумал идею, ее принятие с течением времени и т. Д. И не смог найти ничего по этому поводу. Я полагаю, что это произошло из таблиц отчетов об ошибке +/- за несколько дней до компьютеров. Я видел документы 1930-х годов, в которых удалось опубликовать таблицы полного набора данных, поэтому я не уверен, что практика когда-либо была действительно оправданной. Например: Хедрич А.В. Ежемесячные оценки детского населения, «восприимчивого» к кори, 1900–1931, Балтимор, Мэриленд. Am J Hyg 1933; 17: 613-636.
Яркий
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.