Какова история коробочных сюжетов и как развивался дизайн «коробочек и усов»?


19

Многие источники датируют классический дизайн «коробочного сюжета» Джоном Тьюки и его «схематическим сюжетом» 1970 года. С тех пор дизайн, кажется, оставался относительно статичным, так как урезанная версия Эдварда Туфте с сюжетной коробкой оказалась не в состоянии завоевать популярность, в то время как сюжеты для скрипки - хотя и более информативный вариант рамочного сюжета - остаются менее популярными. Предложение Кливленда о том, что усы распространяются на 10 и 90 процентили, имеет некоторых сторонников, см. Cox (2009) , но не является нормой.

Хэдли Уикхем и Лиза Стриевски написали неопубликованную статью по истории коробочных сюжетов, но, похоже, она не охватывает исторических предшественников коробочных сюжетов.

Так как же появился нынешний, вездесущий сюжет «коробка и усы»? Из какого вида визуализации данных она развивалась, имели ли эти более ранние разработки какие-либо существенные преимущества, и почему они, по-видимому, столь полно затмевались при использовании схемы Тьюки? Иллюстрированный ответ был бы бонусом, но было бы полезно обратиться к ссылке, которая исторически погружается глубже, чем Уикхем и Стриевский.

Ссылки

  • Кокс, Нью-Джерси (2009). Speaking Stata: Создание и изменение рамок. Stata Journal , 9 (3), 478.
  • Wickham H. and Stryjewski L. (2011). 40 лет боксплотов. http://vita.had.co.nz/papers/boxplots.pdf

1
Некоторое уместное обсуждение ряда предшественников здесь: stats.stackexchange.com/questions/125521/… ... Тьюки знал о работе Мэри Спирс, но, возможно, он не видел ни одного из более ранних
Glen_b -Reinstate Monica

Спасибо @Glen_b, это была действительно дискуссия, которую я прочитал, которая вдохновила этот вопрос, но мне потребовалось 4 года, чтобы обойти его, и я не смог отследить дискуссию! (К сожалению, комментарии не отображаются в поиске по сайту, поэтому было бы полезно попытаться включить их в надлежащие вопросы и ответы.)
Silverfish,

1
Я использую поиск Google с site:stats.stackexchange.comнабором, чтобы отслеживать вещи в комментариях. Я смог вспомнить достаточно подробностей (это была дискуссия между Ником и мной, касающаяся коробочных сюжетов, и что я упомянул Шмида), чтобы получить первый удар.
Glen_b

1
Тангенциальное замечание о выбросах boxplot. Два правила были широко использованы. Один из них по умолчанию (в R и других программах) состоит в том, что наблюдения ниже или выше обозначаются как выбросы; «1.5IQR-правило». В ранних версиях Minitab также использовал правило , называя более экстремальные выбросы «вероятными выбросами» и менее экстремальные «возможными выбросами». По крайней мере для примерно нормальных данных оба правила показывают процент выбросов, которые сильно различаются в зависимости от размера выборки моделирования правило будет более стабильным вплоть до 1000-х годов. Q 3 + 1,5 I Q R 3 I Q R n . 2,25 I Q RQ1-1,5яQрQ3+1,5яQр3яQрN,2,25яQр
BruceET

1
github.com/hadley/boxplots-paper содержит много материалов, таких как отчеты анонимных рецензентов из журнала («_American Statistician_») (краткие и обескураживающие) и независимые, но частично совпадающие незапрошенные рецензии с Дэвидом Хоаглином и мной (оба гораздо более подробные).
Ник Кокс

Ответы:


18

Резюме генерального директора

История намного длиннее и сложнее, чем думают многие.

Управляющее резюме

История того, что Тьюки называл коробчатыми диаграммами, запутана с историей того, что сейчас часто называют точечными или полосчатыми диаграммами (десятки других имен), и представлениями эмпирической функции квантиля.

Коробочные сюжеты в широко распространенных формах наиболее известны благодаря работе Джона Уайлдера Тьюки (1970, 1972, 1977).

Но идея показа медианы и квартилей в качестве основных сводок - часто вместе, но не всегда, с точками, показывающими все значения - восходит, по крайней мере, к диаграммам рассеяния (много вариантов названий), представленным географом Перси Робертом Кроу (1933). Они были основной платой для географов и использовались во многих учебниках, а также в научных трудах с конца 1930-х годов.

Бибби (1986, с.56, 59) дал еще более ранние ссылки на подобные идеи, которым учил Артур Лайон Боули (позднее сэр Артур) в своих лекциях о 1897 году, и на его рекомендации (Bowley, 1910, с.62; 1952, с.73 ) использовать минимальные и максимальные и 10, 25, 50, 75 и 90% баллов в качестве основы для графического резюме.

Диапазоны, показывающие крайности и квартили, часто приписывают Мэри Элеоноре Спир (1952), но в моем чтении меньше людей цитируют Кеннета У. Хэмера (1948). Статьи Гемера о статистической графике, опубликованные американским статистиком в 1950 году, были изобретательными, имели критический смысл и по-прежнему заслуживают перечитывания. (Многие читатели смогут получить к ним доступ через jstor.org.) В отличие от этого, книги Спир (Spear 1969 - перефразировка) были доступными и осмысленными, но намеренно вводными, а не новаторскими или научными.

Варианты коробочных графиков, в которых усы распространяются на выбранные процентили, встречаются чаще, чем кажется многим. Опять же, эквивалентные участки использовались географами с 1930-х годов.

То, что является наиболее оригинальным в версии блочных графиков Тьюки, это, прежде всего, критерии для определения точек в хвостах, которые должны быть нанесены отдельно и идентифицированы как заслуживающие подробного рассмотрения, и как часто отмечающие, что переменная должна быть проанализирована в преобразованном масштабе. Его эмпирическое правило 1,5 IQR появилось только после долгих экспериментов. В некоторых руках он превратился в жесткое правило для удаления точек данных, что никогда не было целью Тьюки. Резкое, запоминающееся имя - сюжет коробки - не повредило в обеспечении гораздо более широкого воздействия этих идей. Дисперсионная диаграмма, напротив, довольно скучный и унылый термин.

Довольно длинный список ссылок здесь, возможно, вопреки внешнему виду, не является исчерпывающим. Цель состоит в том, чтобы просто предоставить документацию для некоторых прекурсоров и альтернатив для участка. Конкретные ссылки могут быть полезны для подробных запросов или если они находятся близко к вашей области. И наоборот, изучение практики в других областях может быть полезным. Графический, а не только картографический, опыт географов часто недооценивают.

Подробнее

Гибридные точечные графики использовались Кроу (1933, 1936), Мэтьюзом (1936), Хоггом (1948), Монкхаусом и Уилкинсоном (1952), Фармером (1956), Грегори (1963), Хаммондом и МакКаллахом (1974), Льюисом. (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn и Keough (2002), Young et al. (2006) и Хендри и Нильсен (2007) и многие другие. См. Также Миллер (1953, 1964).

Кливленд (1985) подчеркивал, что рисование усов в определенных процентилях, а не в точках данных в пределах столь большого количества IQR квартилей, было ожидаемым Мэтьюзом (1936) и Гроувом (1956), которые строили межцитильный диапазон, означая между первым и первым. седьмой октил, а также ассортимент и межквартильный размах. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt and Johnson (2009, 2011) и Davino et al. (2014) показал среднее, а также минимум, квартили, медиану и максимум. Шмид (1954) показал сводные графики с медианой, квартилями и точками 5 и 95%. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) и Motulsky (2010, 2014, 2018) нанесли усы на 5 и 95%. Морган и Генрион (1990, с. 221, 241), Спенс (2001, с. 36) и Готелли и Эллисон (2004, 2013, с. 72, 110, 213, 416) наносил усы на 10% и 90% баллов. Харрис (1999) показал примеры как 5 и 95%, так и 10 и 90% баллов. Altman (1991, с. 34, 63) и Greenacre (2016) нанесли на усы 2,5% и 97,5%. Рейман и соавт. (2008, с.46-47) нанесли усы на 5% и 95%, а также на 2% и 98%.

Parzen (1979a, 1979b, 1982) гибридизировал коробчатые и квантильные участки как участки квантильных коробок. См. Также (например) Shera (1991), Militký and Meloun (1993), Meloun и Militký (1994). Обратите внимание, однако, что график квантильного прямоугольника Кина (2010) - это просто прямоугольник с усами, доходящими до крайностей. Напротив, квантильные коробчатые участки JMP, очевидно, являются коробчатыми участками с отметками 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: см. Sall et al. (2014, с.143-4).

Вот некоторые заметки о вариантах графиков квантильных коробок.

пп,1-п-п,1-п

п,1-п

Из увиденной мною литературы кажется, что ни одна из этих тем - графики квантильных ящиков или более поздние варианты (A) (B) (C) - не ссылаются друг на друга.

!!! по состоянию на 3 октября 2018 года детали для некоторых ссылок должны быть представлены в следующем редактировании.

Альтман Д. Г. 1991. Практическая статистика в медицинских исследованиях. Лондон: Чепмен и Холл.

Бентли, JL 1985 года. Программирование жемчуга: Выбор. Сообщения ACM 28: 1121-1127.

Бентли, JL 1988. Больше программирования жемчужины: исповедь кодера. Чтение, Массачусетс: Аддисон-Уэсли.

Bibby, J. 1986. Примечания к истории преподавания статистики. Эдинбург: Джон Бибби (Книги).

Bowley, AL 1910. Начальное руководство по статистике. Лондон: Макдональд и Эванс. (седьмое издание 1952 г.)

Cleveland, WS 1985. Элементы графического представления данных. Монтерей, Калифорния: Уодсворт.

Кроу, PR 1933. Анализ вероятности осадков: графический метод и его применение к европейским данным. Шотландский географический журнал 49: 73-91.

Кроу, PR 1936. Режим осадков западных равнин. Географическое обозрение 26: 463-484.

Дэвис, JC 2002. Статистика и анализ данных в геологии. Нью-Йорк: Джон Уайли.

Дикинсон, GC 1963. Статистическое картирование и представление статистики. Лондон: Эдвард Арнольд. (второе издание 1973 г.)

Dury, GH 1963. Ист-Мидлендс и Пик. Лондон: Томас Нельсон.

Фермер, BH 1956. Осадки и водоснабжение в сухой зоне Цейлона. В Steel, RW и CA Fisher (eds) Географические очерки о британских тропических землях. Лондон: Джордж Филипп, 227-268.

Грегори, С. 1963. Статистические методы и географ. Лондон: Лонгманс. (более поздние издания 1968, 1973, 1978; издатель позже Longman)

Grove, AT 1956. Эрозия почвы в Нигерии. В Steel, RW и CA Fisher (eds) Географические очерки о британских тропических землях. Лондон: Джордж Филипп, 79-111.

Haemer, KW 1948. Диаграммы линейчатой ​​диаграммы. Американский статистик 2 (2): 23.

Хендри, Д.Ф. и Б. Нильсен. 2007. Эконометрическое моделирование: подход правдоподобия. Принстон, Нью-Джерси: издательство Принстонского университета.

Хогг, WH 1948. Диаграммы рассеивания осадков: обсуждение их достоинств и недостатков. География 33: 31-37.

Ибрекк, Х. и Морган М.Г. 1987. Графическое сообщение неопределенных количеств нетехническим людям. Анализ рисков 7: 519-529.

Джонсон, BLC 1975. Бангладеш. Лондон: Heinemann Educational.

Кин, KJ 2010. Графика для статистики и анализа данных с Р. Бока Ратон, FL: CRC Press. (2-е издание 2018 г.)

Льюис, CR 1975. Анализ изменений в статусе города: тематическое исследование в Среднем Уэльсе и пограничном районе среднего Уэльса. Труды Института британских географов 64: 49-65.

Мартинес, WL, AR Martinez и JL Solka. 2011. Исследовательский анализ данных с помощью MATLAB. Бока-Ратон, Флорида: CRC Press.

Мэтьюз, HA 1936. Новый взгляд на некоторые знакомые индийские дожди. Шотландский географический журнал 52: 84-97.

Мэтьюз, JA 1981. Количественные и статистические подходы к географии: практическое пособие. Оксфорд: Пергамон.

Meloun, M. and J. Militký. 1994. Компьютерная обработка данных в аналитической хемометрии. I. Исследовательский анализ одномерных данных. Chemical Papers 48: 151-157.

Militký, J. и M. Meloun. 1993. Некоторые графические пособия для одномерного анализа поисковых данных. Analytica Chimica Acta 277: 215-221.

Миллер А. А. 1953. Кожа Земли. Лондон: Метуэн. (2-е издание 1964 г.)

Monkhouse, FJ и HR Wilkinson. 1952. Карты и схемы: их составление и построение. Лондон: Метуэн. (более поздние издания 1963, 1971)

Морган М.Г. и М. Генрион. 1990. Неопределенность: Руководство по устранению неопределенности в количественном анализе рисков и политики. Кембридж: издательство Кембриджского университета.

Myatt, GJ 2007. Осмысление данных: практическое руководство по исследовательскому анализу данных и интеллектуальному анализу данных. Хобокен, Нью-Джерси: Джон Уайли.

Myatt, GJ и Johnson, WP 2009. Осмысление данных II: практическое руководство по визуализации данных, расширенным методам интеллектуального анализа данных и приложениям. Хобокен, Нью-Джерси: Джон Уайли.

Myatt, GJ и Johnson, WP 2011. Осмысление данных III: практическое руководство по разработке интерактивных визуализаций данных. Хобокен, Нью-Джерси: Джон Уайли.

Ottaway, B. 1973. Дисперсионные диаграммы: новый подход к отображению дат углерода-14. Археометрия 15: 5-12.

Parzen, E. 1979a. Непараметрическое статистическое моделирование данных. Журнал, Американская статистическая ассоциация 74: 105-121.

Parzen, E. 1979b. Перспектива функции квантили плотности для робастной оценки. В Launer, RL и Г. Н. Уилкинсон (ред.) Робастность в статистике. Нью-Йорк: Academic Press, 237-258.

Парцен, Е. 1982. Моделирование данных с использованием функций квантиля и плотности-квантиля. В Tiago de Oliveira, J. and Epstein, B. (eds) Некоторые последние достижения в области статистики. Лондон: Academic Press, 23-52.

Куинн, GP и MJ Keough. 2002. Экспериментальный дизайн и анализ данных для биологов. Кембридж: издательство Кембриджского университета.

Reimann, C., P. Filzmoser, RG Garrett and R. Dutter. 2008. Объясненный анализ статистических данных: прикладная экологическая статистика с Р. Чичестером: Джон Вили.

Салл Дж., А. Леман, М. Стивенс и Л. Крейтон. 2014. JMP Start Statistics: Руководство по статистике и анализу данных с использованием JMP. Cary, NC: SAS Institute.

Shera, DM 1991. Некоторые виды использования квантильных графиков для улучшения представления данных. Вычислительная наука и статистика 23: 50-53.

Копье, ME 1952. Диаграмма статистики. Нью-Йорк: Макгроу-Хилл.

Копье, ME 1969. Практические методы построения диаграмм. Нью-Йорк: Макгроу-Хилл.

Tukey, JW 1970.
Исследовательский анализ данных. Ограниченная предварительная версия. Том I. Чтение, Массачусетс: Аддисон-Уэсли.

Tukey, JW 1972. Некоторые графические и полуграфические дисплеи. В Bancroft, TA и Brown, SA (ред.) Статистические документы в честь Джорджа У. Снедекора. Эймс, ИА: Издательство Университета Айовы, 293-316. (также доступно по адресу http://www.edwardtufte.com/tufte/tukey )

Тьюки, JW 1977. Исследовательский анализ данных. Чтение, Массачусетс: Аддисон-Уэсли.

Wild, CJ и GAF Seber. 2000. Случайные встречи: первый курс по анализу и выводу данных. Нью-Йорк: Джон Уайли.


У меня есть другие материалы о коробочках-процентилях, горных участках и других гибридных формах, которые будут добавлены позже.
Ник Кокс

Очень ценю этот ответ, спасибо Ник - с нетерпением жду дополнений об альтернативах и гибридах. Я думаю, что было бы справедливо сказать, что «коробочные сюжеты» и друзья »образуют« семью »визуализаций данных, хотя я не знаю, как следует называть эту семью
Silverfish

Благодарность! если владение линиями или другими маркерами, обозначающими медиану и квартили, определяет коробку, то были поля с коробками задолго до того, как Тьюки назвал их, и я уверен, что он никогда не утверждал обратное. Тем не менее, многие миниатюрные истории в учебниках и в других местах кажутся решительными в этом вопросе; в основном, это просто мем, повторенный без доказательств, как история о том, что лемминги прыгают со скал как коллективное самоубийство. Многие из альтернатив блочным графикам даже не показывают прямоугольник, поэтому поле широко открыто для включения любого графического представления одномерных распределений.
Ник Кокс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.