Существует хороший случай наличия большого количества элементов разрешения, например элементов разрешения для каждого возможного значения, всякий раз, когда предполагается, что деталь гистограммы будет не шумом, а интересной или важной тонкой структурой.
Это напрямую не связано с точной мотивацией для этого вопроса, когда требуется автоматическое правило для некоторого оптимального числа бинов, но оно имеет отношение к вопросу в целом.
Давайте сразу перейдем к примерам. В демографии округление зарегистрированных возрастов является обычным явлением, особенно, но не только в странах с ограниченной грамотностью. Может случиться так, что многие люди не знают точную дату своего рождения, или существуют социальные или личные причины занижения или преувеличения их возраста. Военная история полна примеров того, как люди лгали о своем возрасте, чтобы избежать или искать службу в вооруженных силах. Действительно, многие читатели узнают кого-то, кто очень застенчив или иначе не совсем правдив в отношении своего возраста, даже если они не лгут об этом по переписи. Чистый результат варьируется, но, как уже подразумевалось, обычно является округлением, например, возрасты, оканчивающиеся на 0 и 5, встречаются гораздо чаще, чем возрасты на один год или более.
Подобное явление предпочтения цифр характерно даже для совершенно разных задач. В некоторых старомодных методах измерения последняя цифра сообщаемого измерения должна измеряться на глаз путем интерполяции между градуированными метками. Это было долгое время в метеорологии с ртутными термометрами. Было обнаружено, что в совокупности некоторые сообщаемые цифры встречаются чаще, чем другие, и что по отдельности многие из нас имеют подписи, личный образец предпочтения одних цифр, а не других. Обычное эталонное распределение здесь является равномерным, то есть, поскольку диапазон возможных измерений во много раз превышает «единицу» измерения, ожидается, что окончательные цифры будут появляться с одинаковой частотой. Таким образом, если заявленные значения температуры в тени могут охватывать диапазон (скажем) 50∘C десять последних цифр, дроби степени .0, .1, , .8, .9 должны встречаться с вероятностью 0,1. Качество этого приближения должно быть хорошим даже для более ограниченного диапазона.⋯
Кстати, просмотр последних цифр сообщаемых данных - это простой и хороший метод проверки сфабрикованных данных, который гораздо проще для понимания и менее проблематичен, чем модный в настоящее время анализ первых цифр с обращением к закону Бенфорда.
Результат для гистограмм теперь должен быть ясным. Представление в виде шипа может служить для демонстрации или, в более общем смысле, для проверки такого рода тонкой структуры. Естественно, если ничего интересного не видно, график может оказаться бесполезным.
В одном примере показана возрастная куча из переписи Ганы 1960 года. См. Http://www.stata.com/manuals13/rspikeplot.pdf
Был хороший обзор раздач финальных цифр в
Прис, Д.А. 1981. Распределение конечных цифр в данных. Статистик 30: 31-60.
Примечание по терминологии: некоторые люди пишут об уникальных значениях переменной, когда им лучше говорить об отдельных значениях переменной. Словари и руководства по использованию по-прежнему советуют, что «уникальные» средства встречаются только один раз. Таким образом, отчетный возраст населения может составлять в годах 0, 1, 2 и т. Д., Но подавляющее большинство этих возрастов не будет уникальным для одного человека.