Резюме генерального директора
История намного длиннее и сложнее, чем думают многие.
Управляющее резюме
История того, что Тьюки называл коробчатыми диаграммами, запутана с историей того, что сейчас часто называют точечными или полосчатыми диаграммами (десятки других имен), и представлениями эмпирической функции квантиля.
Коробочные сюжеты в широко распространенных формах наиболее известны благодаря работе Джона Уайлдера Тьюки (1970, 1972, 1977).
Но идея показа медианы и квартилей в качестве основных сводок - часто вместе, но не всегда, с точками, показывающими все значения - восходит, по крайней мере, к диаграммам рассеяния (много вариантов названий), представленным географом Перси Робертом Кроу (1933). Они были основной платой для географов и использовались во многих учебниках, а также в научных трудах с конца 1930-х годов.
Бибби (1986, с.56, 59) дал еще более ранние ссылки на подобные идеи, которым учил Артур Лайон Боули (позднее сэр Артур) в своих лекциях о 1897 году, и на его рекомендации (Bowley, 1910, с.62; 1952, с.73 ) использовать минимальные и максимальные и 10, 25, 50, 75 и 90% баллов в качестве основы для графического резюме.
Диапазоны, показывающие крайности и квартили, часто приписывают Мэри Элеоноре Спир (1952), но в моем чтении меньше людей цитируют Кеннета У. Хэмера (1948). Статьи Гемера о статистической графике, опубликованные американским статистиком в 1950 году, были изобретательными, имели критический смысл и по-прежнему заслуживают перечитывания. (Многие читатели смогут получить к ним доступ через jstor.org.) В отличие от этого, книги Спир (Spear 1969 - перефразировка) были доступными и осмысленными, но намеренно вводными, а не новаторскими или научными.
Варианты коробочных графиков, в которых усы распространяются на выбранные процентили, встречаются чаще, чем кажется многим. Опять же, эквивалентные участки использовались географами с 1930-х годов.
То, что является наиболее оригинальным в версии блочных графиков Тьюки, это, прежде всего, критерии для определения точек в хвостах, которые должны быть нанесены отдельно и идентифицированы как заслуживающие подробного рассмотрения, и как часто отмечающие, что переменная должна быть проанализирована в преобразованном масштабе. Его эмпирическое правило 1,5 IQR появилось только после долгих экспериментов. В некоторых руках он превратился в жесткое правило для удаления точек данных, что никогда не было целью Тьюки. Резкое, запоминающееся имя - сюжет коробки - не повредило в обеспечении гораздо более широкого воздействия этих идей. Дисперсионная диаграмма, напротив, довольно скучный и унылый термин.
Довольно длинный список ссылок здесь, возможно, вопреки внешнему виду, не является исчерпывающим. Цель состоит в том, чтобы просто предоставить документацию для некоторых прекурсоров и альтернатив для участка. Конкретные ссылки могут быть полезны для подробных запросов или если они находятся близко к вашей области. И наоборот, изучение практики в других областях может быть полезным. Графический, а не только картографический, опыт географов часто недооценивают.
Подробнее
Гибридные точечные графики использовались Кроу (1933, 1936), Мэтьюзом (1936), Хоггом (1948), Монкхаусом и Уилкинсоном (1952), Фармером (1956), Грегори (1963), Хаммондом и МакКаллахом (1974), Льюисом. (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn и Keough (2002), Young et al. (2006) и Хендри и Нильсен (2007) и многие другие. См. Также Миллер (1953, 1964).
Кливленд (1985) подчеркивал, что рисование усов в определенных процентилях, а не в точках данных в пределах столь большого количества IQR квартилей, было ожидаемым Мэтьюзом (1936) и Гроувом (1956), которые строили межцитильный диапазон, означая между первым и первым. седьмой октил, а также ассортимент и межквартильный размах. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt and Johnson (2009, 2011) и Davino et al. (2014) показал среднее, а также минимум, квартили, медиану и максимум. Шмид (1954) показал сводные графики с медианой, квартилями и точками 5 и 95%. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) и Motulsky (2010, 2014, 2018) нанесли усы на 5 и 95%. Морган и Генрион (1990, с. 221, 241), Спенс (2001, с. 36) и Готелли и Эллисон (2004, 2013, с. 72, 110, 213, 416) наносил усы на 10% и 90% баллов. Харрис (1999) показал примеры как 5 и 95%, так и 10 и 90% баллов. Altman (1991, с. 34, 63) и Greenacre (2016) нанесли на усы 2,5% и 97,5%. Рейман и соавт. (2008, с.46-47) нанесли усы на 5% и 95%, а также на 2% и 98%.
Parzen (1979a, 1979b, 1982) гибридизировал коробчатые и квантильные участки как участки квантильных коробок. См. Также (например) Shera (1991), Militký and Meloun (1993), Meloun и Militký (1994). Обратите внимание, однако, что график квантильного прямоугольника Кина (2010) - это просто прямоугольник с усами, доходящими до крайностей. Напротив, квантильные коробчатые участки JMP, очевидно, являются коробчатыми участками с отметками 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: см. Sall et al. (2014, с.143-4).
Вот некоторые заметки о вариантах графиков квантильных коробок.
пр , 1 - р-р , 1 - р
р , 1 - р
Из увиденной мною литературы кажется, что ни одна из этих тем - графики квантильных ящиков или более поздние варианты (A) (B) (C) - не ссылаются друг на друга.
!!! по состоянию на 3 октября 2018 года детали для некоторых ссылок должны быть представлены в следующем редактировании.
Альтман Д. Г. 1991.
Практическая статистика в медицинских исследованиях.
Лондон: Чепмен и Холл.
Бентли, JL 1985 года. Программирование жемчуга: Выбор.
Сообщения ACM 28: 1121-1127.
Бентли, JL 1988.
Больше программирования жемчужины: исповедь кодера.
Чтение, Массачусетс: Аддисон-Уэсли.
Bibby, J. 1986.
Примечания к истории преподавания статистики.
Эдинбург: Джон Бибби (Книги).
Bowley, AL 1910.
Начальное руководство по статистике.
Лондон: Макдональд и Эванс. (седьмое издание 1952 г.)
Cleveland, WS 1985. Элементы графического представления данных.
Монтерей, Калифорния: Уодсворт.
Кроу, PR 1933. Анализ вероятности осадков: графический метод и его применение к европейским данным.
Шотландский географический журнал 49: 73-91.
Кроу, PR 1936. Режим осадков западных равнин.
Географическое обозрение 26: 463-484.
Дэвис, JC 2002.
Статистика и анализ данных в геологии.
Нью-Йорк: Джон Уайли.
Дикинсон, GC 1963.
Статистическое картирование и представление статистики.
Лондон: Эдвард Арнольд. (второе издание 1973 г.)
Dury, GH 1963.
Ист-Мидлендс и Пик.
Лондон: Томас Нельсон.
Фермер, BH 1956. Осадки и водоснабжение в сухой зоне Цейлона. В Steel, RW и CA Fisher (eds)
Географические очерки о британских тропических землях.
Лондон: Джордж Филипп, 227-268.
Грегори, С. 1963. Статистические методы и географ.
Лондон: Лонгманс. (более поздние издания 1968, 1973, 1978; издатель позже Longman)
Grove, AT 1956. Эрозия почвы в Нигерии. В Steel, RW и CA Fisher (eds)
Географические очерки о британских тропических землях.
Лондон: Джордж Филипп, 79-111.
Haemer, KW 1948. Диаграммы линейчатой диаграммы.
Американский статистик 2 (2): 23.
Хендри, Д.Ф. и Б. Нильсен. 2007.
Эконометрическое моделирование: подход правдоподобия.
Принстон, Нью-Джерси: издательство Принстонского университета.
Хогг, WH 1948. Диаграммы рассеивания осадков: обсуждение их достоинств и недостатков.
География 33: 31-37.
Ибрекк, Х. и Морган М.Г. 1987. Графическое сообщение неопределенных количеств нетехническим людям.
Анализ рисков 7: 519-529.
Джонсон, BLC 1975.
Бангладеш. Лондон: Heinemann Educational.
Кин, KJ 2010.
Графика для статистики и анализа данных с Р.
Бока Ратон, FL: CRC Press. (2-е издание 2018 г.)
Льюис, CR 1975. Анализ изменений в статусе города: тематическое исследование в Среднем Уэльсе и пограничном районе среднего Уэльса.
Труды Института британских географов
64: 49-65.
Мартинес, WL, AR Martinez и JL Solka. 2011.
Исследовательский анализ данных с помощью MATLAB.
Бока-Ратон, Флорида: CRC Press.
Мэтьюз, HA 1936. Новый взгляд на некоторые знакомые индийские дожди.
Шотландский географический журнал 52: 84-97.
Мэтьюз, JA 1981.
Количественные и статистические подходы к географии: практическое пособие.
Оксфорд: Пергамон.
Meloun, M. and J. Militký. 1994. Компьютерная обработка данных в аналитической хемометрии. I. Исследовательский анализ одномерных данных.
Chemical Papers 48: 151-157.
Militký, J. и M. Meloun. 1993. Некоторые графические пособия для одномерного анализа поисковых данных.
Analytica Chimica Acta 277: 215-221.
Миллер А. А. 1953.
Кожа Земли.
Лондон: Метуэн. (2-е издание 1964 г.)
Monkhouse, FJ и HR Wilkinson. 1952.
Карты и схемы: их составление и построение.
Лондон: Метуэн. (более поздние издания 1963, 1971)
Морган М.Г. и М. Генрион. 1990.
Неопределенность: Руководство по устранению неопределенности в количественном анализе рисков и политики.
Кембридж: издательство Кембриджского университета.
Myatt, GJ 2007.
Осмысление данных: практическое руководство по исследовательскому анализу данных и интеллектуальному анализу данных.
Хобокен, Нью-Джерси: Джон Уайли.
Myatt, GJ и Johnson, WP 2009.
Осмысление данных II: практическое руководство по визуализации данных, расширенным методам интеллектуального анализа данных и приложениям.
Хобокен, Нью-Джерси: Джон Уайли.
Myatt, GJ и Johnson, WP 2011.
Осмысление данных III: практическое руководство по разработке интерактивных визуализаций данных.
Хобокен, Нью-Джерси: Джон Уайли.
Ottaway, B. 1973. Дисперсионные диаграммы: новый подход к отображению дат углерода-14.
Археометрия 15: 5-12.
Parzen, E. 1979a. Непараметрическое статистическое моделирование данных.
Журнал, Американская статистическая ассоциация 74: 105-121.
Parzen, E. 1979b. Перспектива функции квантили плотности для робастной оценки. В Launer, RL и Г. Н. Уилкинсон (ред.) Робастность в статистике.
Нью-Йорк: Academic Press, 237-258.
Парцен, Е. 1982. Моделирование данных с использованием функций квантиля и плотности-квантиля. В Tiago de Oliveira, J. and Epstein, B. (eds)
Некоторые последние достижения в области статистики. Лондон: Academic Press, 23-52.
Куинн, GP и MJ Keough. 2002.
Экспериментальный дизайн и анализ данных для биологов.
Кембридж: издательство Кембриджского университета.
Reimann, C., P. Filzmoser, RG Garrett and R. Dutter. 2008.
Объясненный анализ статистических данных: прикладная экологическая статистика с Р.
Чичестером: Джон Вили.
Салл Дж., А. Леман, М. Стивенс и Л. Крейтон. 2014.
JMP Start Statistics: Руководство по статистике и анализу данных с использованием JMP.
Cary, NC: SAS Institute.
Shera, DM 1991. Некоторые виды использования квантильных графиков для улучшения представления данных.
Вычислительная наука и статистика 23: 50-53.
Копье, ME 1952. Диаграмма статистики.
Нью-Йорк: Макгроу-Хилл.
Копье, ME 1969. Практические методы построения диаграмм.
Нью-Йорк: Макгроу-Хилл.
Tukey, JW 1970.
Исследовательский анализ данных. Ограниченная предварительная версия. Том I.
Чтение, Массачусетс: Аддисон-Уэсли.
Tukey, JW 1972. Некоторые графические и полуграфические дисплеи. В Bancroft, TA и Brown, SA (ред.)
Статистические документы в честь Джорджа У. Снедекора.
Эймс, ИА: Издательство Университета Айовы, 293-316. (также доступно по адресу http://www.edwardtufte.com/tufte/tukey )
Тьюки, JW 1977.
Исследовательский анализ данных.
Чтение, Массачусетс: Аддисон-Уэсли.
Wild, CJ и GAF Seber. 2000.
Случайные встречи: первый курс по анализу и выводу данных.
Нью-Йорк: Джон Уайли.