Уилк М.Б., Гнанадесикан Р. 1968. Вероятностные методы построения графиков для анализа данных.
Биометрика 55: 1-17. Jstor ссылка, если у вас есть доступ
Этому документу на момент моего написания почти 50 лет, но он все еще чувствует себя свежим и инновационным. Используя большое количество интересных и содержательных примеров, авторы объединяют и расширяют различные идеи для построения и сравнения распределений, используя структуру графиков QQ (квантиль-квантиль) и PP (вероятность-вероятность). Распределения здесь в широком смысле означают любые наборы данных или чисел (остатки, контрасты и т. Д.), Возникающие в ходе их анализа.
Конкретные версии этих графиков восходят к нескольким десятилетиям, наиболее очевидно графики с нормальной вероятностью или нормальными оценками. которые в этих терминах представляют собой графики квантиль-квантиль, а именно графики наблюдаемых квантилей по сравнению с ожидаемыми или теоретическими квантилями из выборки того же размера из нормального (гауссовского) распределения. Но авторы показывают, скромно, но уверенно, что те же идеи могут быть легко расширены - и практически с помощью современных вычислений - для изучения других видов квантилей и автоматического построения результатов.
Авторы, тогда оба работавшие в Bell Telephone Laboratories, пользовались самыми современными вычислительными возможностями, и даже многим университетам и исследовательским институтам понадобилось около десяти лет, чтобы их догнать. Даже сейчас идеи в этой статье заслуживают более широкого применения, чем они получают. Это редкий вводный текст или курс, который включает в себя любую из этих идей, кроме обычного сюжета QQ. Гистограммы и коробочные графики (каждая из которых часто очень полезна, но, тем не менее, каждая неудобна и ограничена несколькими способами) по-прежнему остаются основными продуктами при представлении графиков распределения.
На личном уровне, хотя основные идеи этой статьи были знакомы большую часть моей карьеры, мне нравится перечитывать ее каждые пару лет или около того. Одна веская причина - удовольствие от того, как авторы приводят простые, но мощные идеи к хорошим результатам на серьезных примерах. Еще одна веская причина заключается в том, что статья, которая написана кратко, без малейших следов бомбасто, намекает на расширение основных идей. Я не раз открывал повороты для основных идей, подробно изложенных в побочных подсказках и дальнейших комментариях.
Это не просто статья для тех, кто особенно интересуется статистической графикой, хотя, на мой взгляд, это должно включать всех, кто интересуется статистикой любого рода. Он продвигает способы мышления о распределениях, которые практически полезны для развития чьих-либо статистических навыков и знаний.