Когда гистограмма с однородным мусорным ведром лучше, чем гистограмма с однородным мусорным ведром?
Это требует некоторой идентификации того, что мы стремимся оптимизировать; многие люди пытаются оптимизировать среднеквадратическую среднеквадратичную ошибку, но во многих случаях я думаю, что это несколько упускает из виду создание гистограммы; это часто (на мой взгляд) «перегибы»; для исследовательского инструмента, такого как гистограмма, я могу терпеть гораздо большую шероховатость, поскольку сама шероховатость дает мне ощущение степени, в которой я должен «сглаживаться» на глаз; Я склонен, по крайней мере, удваивать обычное количество бинов по таким правилам, иногда гораздо больше. Я склонен согласиться с Эндрю Гельманом в этом; действительно, если бы мой интерес был действительно получить хороший AIMSE, я, вероятно, не должен был бы рассматривать гистограмму так или иначе.
Поэтому нам нужен критерий.
Позвольте мне начать с обсуждения некоторых вариантов гистограмм неравных областей:
Есть некоторые подходы, которые делают большее сглаживание (меньше, более широкие ячейки) в областях меньшей плотности и имеют более узкие ячейки, где плотность выше - например, гистограммы «равной площади» или «равного количества». Ваш отредактированный вопрос, кажется, рассматривает возможность равного количества.
histogram
Функция R в lattice
упаковке может производить примерно равную площадь баров:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
Этот провал справа от самого левого бункера еще яснее, если вы берете четвертые корни; с мусорными ведрами равной ширины вы не сможете увидеть их, если не будете использовать в 15-20 раз больше мусорных ведер, и тогда правый хвост выглядит ужасно.
Там в равном количестве гистограммы здесь , с R-кодом, который использует выборочные-квантили найти разрывы.
Например, на тех же данных, что и выше, вот 6 корзин с (надеюсь) 8 наблюдениями в каждой:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
Этот вопрос CV указывает на статью Денби и Мэллоу, вариант которой можно скачать здесь, где описывается компромисс между лотками одинаковой ширины и лотками одинаковой площади.
В нем также рассматриваются вопросы, которые у вас были в некоторой степени.
Возможно, вы могли бы рассмотреть эту проблему как одну из идентификации разрывов в кусочно-постоянном пуассоновском процессе. Это привело бы к такой работе . Есть также связанная с этим возможность взглянуть на алгоритмы типа кластеризации / классификации по (скажем) подсчетам Пуассона, некоторые из которых дали бы несколько бинов. Кластеризация использовалась на 2D гистограммах ( изображения , в действительности), чтобы идентифицировать области, которые являются относительно однородными.
-
Если бы у нас была гистограмма с равным количеством и какой-то критерий для оптимизации, мы могли бы тогда попробовать диапазон значений на ячейку и каким-то образом оценить критерий. Упомянутый здесь документ Wand [ paper , или рабочий документ pdf ] и некоторые из его ссылок (например, на статьи Sheather и др.) Описывают оценку ширины «подключаемого модуля», основанную на идеях сглаживания ядра для оптимизации AIMSE; Вообще говоря, такой подход должен быть адаптирован к этой ситуации, хотя я не помню, чтобы это было сделано.