Существует ли верхний предел количества интервалов в гистограмме?


10

Я прочитал несколько статей и выдержки из книг, которые объясняют, как выбрать хорошее количество интервалов (бинов) для гистограммы набора данных, но мне интересно, есть ли жесткое максимальное количество интервалов, основанное на количестве точек в набор данных или какой-то другой критерий.

Справочная информация: причина, по которой я спрашиваю, состоит в том, что я пытаюсь написать программное обеспечение на основе процедуры из исследовательской работы. Одним из шагов в этой процедуре является создание нескольких гистограмм из набора данных, а затем выбор оптимального разрешения на основе характеристической функции (определенной авторами статьи). Моя проблема в том, что авторы не упоминают верхнюю границу для количества тестируемых интервалов. (У меня есть сотни наборов данных для анализа, и каждый из них может иметь различное «оптимальное» количество бинов. Кроме того, важно, чтобы было выбрано оптимальное количество бинов, поэтому ручной просмотр результатов и выбор хорошего не будут Работа.)

Будет ли просто установка максимального количества интервалов равным количеству точек в наборе данных хорошим руководством или есть какой-то другой критерий, который обычно используется в статистике?


Вы имеете в виду лотки одинакового размера (т.е. лотки с одинаковым интервалом)?
Адам Рычковски

Я считаю, что ответ будет зависеть от алгоритма, который вы пытаетесь реализовать. Я думаю, что вопрос неполный, если вы не предоставите ссылку на эту исследовательскую работу.
Адам Рычковски

Количество точек, безусловно, является теоретическим максимумом, но это почти не будет гистограмма, это будет странно отформатированный график полосы или коврика.
Питер Флом

1
На самом деле, количество очков не является максимальным, извините, мне не хватило кофе! Некоторые из бинов будут равны 0. Например, предположим (для нелепо простого примера), что у вас есть 3 пункта: 1.02, 2.21 и 5.92. Если вы действительно хотите максимальное количество бинов, оно явно больше 3. Вероятно, 6: 1-2, 2-3, 3-4, 4-5 и 5-6 (с соответствующими интервалами открытия и закрытия, чтобы избежать двойного биннинга)
Питер Флом

1
@whuber: значения представляют собой набор измерений расстояния контура объекта от его центроида, нормализованный к [0, 1]. В статье используется разбивка этих расстояний на бинов, нахождение оптимального путем минимизации суммы ошибки квантования (от биннинга) плюс pdf гистограммы. Насколько я понимаю. 2JJ
Уэйн

Ответы:


6

На самом деле не существует какого-либо жесткого верхнего предела, но, с другой стороны, в большинстве ситуаций, когда вы получаете все уникальные наблюдения в своем собственном контейнере, более тонкие контейнеры служат только для более точного определения их положения, не передавая намного больше. например, сравните это:

гистограмма с 30 ячейками
гистограмма с 100 ячейками

За исключением некоторых особых обстоятельств, на втором сюжете, скорее всего, не будет никакой практической пользы, а на первом - не так уж много. Если ваши данные непрерывны, это, вероятно, далеко за пределы полезного количества бинов.

Так что в большинстве ситуаций это выглядит как практическая верхняя граница - каждое уникальное наблюдение в своем собственном мусорном ведре.

(Если есть преимущество в большем количестве контейнеров , чем один на каждое уникальное наблюдение, вы , вероятно , следует делать rugplot или jittered stripchart , чтобы получить такого рода информацию) - что - то вроде того, что делается на полях этих гистограмм:

гистограмма с графиком джиттера
гистограмма с полоской

(Эти гистограммы взяты из этого ответа , ближе к концу)


5

Существует хороший случай наличия большого количества элементов разрешения, например элементов разрешения для каждого возможного значения, всякий раз, когда предполагается, что деталь гистограммы будет не шумом, а интересной или важной тонкой структурой.

Это напрямую не связано с точной мотивацией для этого вопроса, когда требуется автоматическое правило для некоторого оптимального числа бинов, но оно имеет отношение к вопросу в целом.

Давайте сразу перейдем к примерам. В демографии округление зарегистрированных возрастов является обычным явлением, особенно, но не только в странах с ограниченной грамотностью. Может случиться так, что многие люди не знают точную дату своего рождения, или существуют социальные или личные причины занижения или преувеличения их возраста. Военная история полна примеров того, как люди лгали о своем возрасте, чтобы избежать или искать службу в вооруженных силах. Действительно, многие читатели узнают кого-то, кто очень застенчив или иначе не совсем правдив в отношении своего возраста, даже если они не лгут об этом по переписи. Чистый результат варьируется, но, как уже подразумевалось, обычно является округлением, например, возрасты, оканчивающиеся на 0 и 5, встречаются гораздо чаще, чем возрасты на один год или более.

Подобное явление предпочтения цифр характерно даже для совершенно разных задач. В некоторых старомодных методах измерения последняя цифра сообщаемого измерения должна измеряться на глаз путем интерполяции между градуированными метками. Это было долгое время в метеорологии с ртутными термометрами. Было обнаружено, что в совокупности некоторые сообщаемые цифры встречаются чаще, чем другие, и что по отдельности многие из нас имеют подписи, личный образец предпочтения одних цифр, а не других. Обычное эталонное распределение здесь является равномерным, то есть, поскольку диапазон возможных измерений во много раз превышает «единицу» измерения, ожидается, что окончательные цифры будут появляться с одинаковой частотой. Таким образом, если заявленные значения температуры в тени могут охватывать диапазон (скажем) 50C десять последних цифр, дроби степени .0, .1, , .8, .9 должны встречаться с вероятностью 0,1. Качество этого приближения должно быть хорошим даже для более ограниченного диапазона.

Кстати, просмотр последних цифр сообщаемых данных - это простой и хороший метод проверки сфабрикованных данных, который гораздо проще для понимания и менее проблематичен, чем модный в настоящее время анализ первых цифр с обращением к закону Бенфорда.

Результат для гистограмм теперь должен быть ясным. Представление в виде шипа может служить для демонстрации или, в более общем смысле, для проверки такого рода тонкой структуры. Естественно, если ничего интересного не видно, график может оказаться бесполезным.

В одном примере показана возрастная куча из переписи Ганы 1960 года. См. Http://www.stata.com/manuals13/rspikeplot.pdf

Был хороший обзор раздач финальных цифр в

Прис, Д.А. 1981. Распределение конечных цифр в данных. Статистик 30: 31-60.

Примечание по терминологии: некоторые люди пишут об уникальных значениях переменной, когда им лучше говорить об отдельных значениях переменной. Словари и руководства по использованию по-прежнему советуют, что «уникальные» средства встречаются только один раз. Таким образом, отчетный возраст населения может составлять в годах 0, 1, 2 и т. Д., Но подавляющее большинство этих возрастов не будет уникальным для одного человека.


4

Не существует жесткого максимума для количества бинов в гистограмме. Если отображаемая переменная является непрерывной, то можно привести аргумент для бесконечного числа категорий (и гистограмма в основном становится графиком коврика).

Количество точек в наборе данных не является подходящей верхней границей. Рассмотрим набор данных, содержащий два значения: 1 и 1000. Наличие двух корзин не подходит.

Два практических метода определения верхней границы: а) Определение основного округления данных. Например, если данные являются целыми числами, то имеет смысл иметь ячейки с целочисленной шириной. б) Просмотр максимального видимого разрешения (например, количество пикселей в горизонтальном измерении, которое можно использовать для построения графика).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.