Гистограмма с однородными и неоднородными ячейками


10

Этот вопрос описывает принципиальное различие между равномерной и неоднородной гистограммой. И в этом вопросе обсуждается эмпирическое правило для выбора количества бинов однородной гистограммы, которое оптимизирует (в некотором смысле) степень, в которой гистограмма представляет распределение, из которого были взяты выборки данных.

Похоже, я не могу найти такой же вид «оптимальности» в отношении однородных и неоднородных гистограмм. У меня есть кластерное непараметрическое распределение с далеко расположенными выбросами, поэтому неоднородная гистограмма интуитивно понятнее. Но я хотел бы увидеть более точный анализ следующих двух вопросов:

  1. Когда гистограмма с однородным мусорным ведром лучше, чем гистограмма с однородным мусорным ведром?
  2. Что такое хорошее количество бинов для неоднородной гистограммы?

Для неоднородной гистограммы я рассматриваю самый простой случай, когда мы берем выборок из неизвестного распределения, упорядочиваем результирующие значений и разделяем их на бинов так, чтобы у каждого бина было из них. выборки (при условии, что для некоторого большого целого числа ). Диапазоны формируются путем взятия средней точки между значений в bin i и \ min значений в bin i + 1 . Здесь и здесь ссылки, которые описывают этот тип неоднородных гистограмм.н к кnnkknnckcmaximini+1


Недостаточно информации, чтобы ответить (2). Каковы условия неравномерности? Можете ли вы выбрать любые лотки, которые вам нравятся, или есть какие-то ограничения? Что вы хотите оптимизировать? Например, вы хотите, чтобы минимальная средняя интегрированная квадратная ошибка между и ? Или что-то другое? ff^
Glen_b

@Glen_b Я немного подробнее опишу вид гистограммы, которую я рассматриваю в случае неоднородного бина.
Алан Тьюринг

Проверьте ваши изменения. Вы имели в виду «n = cm», а не «cn»? Также есть более поздняя опечатка.
Glen_b

Вы пытаетесь передать что - то вроде этого ?
Glen_b

Также посмотрите это обсуждение компромисса между этим и обычной гистограммой
Glen_b

Ответы:


7

Когда гистограмма с однородным мусорным ведром лучше, чем гистограмма с однородным мусорным ведром?

Это требует некоторой идентификации того, что мы стремимся оптимизировать; многие люди пытаются оптимизировать среднеквадратическую среднеквадратичную ошибку, но во многих случаях я думаю, что это несколько упускает из виду создание гистограммы; это часто (на мой взгляд) «перегибы»; для исследовательского инструмента, такого как гистограмма, я могу терпеть гораздо большую шероховатость, поскольку сама шероховатость дает мне ощущение степени, в которой я должен «сглаживаться» на глаз; Я склонен, по крайней мере, удваивать обычное количество бинов по таким правилам, иногда гораздо больше. Я склонен согласиться с Эндрю Гельманом в этом; действительно, если бы мой интерес был действительно получить хороший AIMSE, я, вероятно, не должен был бы рассматривать гистограмму так или иначе.

Поэтому нам нужен критерий.

Позвольте мне начать с обсуждения некоторых вариантов гистограмм неравных областей:

Есть некоторые подходы, которые делают большее сглаживание (меньше, более широкие ячейки) в областях меньшей плотности и имеют более узкие ячейки, где плотность выше - например, гистограммы «равной площади» или «равного количества». Ваш отредактированный вопрос, кажется, рассматривает возможность равного количества.

histogramФункция R в latticeупаковке может производить примерно равную площадь баров:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

сравнение равной ширины и равной площади

Этот провал справа от самого левого бункера еще яснее, если вы берете четвертые корни; с мусорными ведрами равной ширины вы не сможете увидеть их, если не будете использовать в 15-20 раз больше мусорных ведер, и тогда правый хвост выглядит ужасно.

Там в равном количестве гистограммы здесь , с R-кодом, который использует выборочные-квантили найти разрывы.

Например, на тех же данных, что и выше, вот 6 корзин с (надеюсь) 8 наблюдениями в каждой:

гистограмма равного количества

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

Этот вопрос CV указывает на статью Денби и Мэллоу, вариант которой можно скачать здесь, где описывается компромисс между лотками одинаковой ширины и лотками одинаковой площади.

В нем также рассматриваются вопросы, которые у вас были в некоторой степени.

Возможно, вы могли бы рассмотреть эту проблему как одну из идентификации разрывов в кусочно-постоянном пуассоновском процессе. Это привело бы к такой работе . Есть также связанная с этим возможность взглянуть на алгоритмы типа кластеризации / классификации по (скажем) подсчетам Пуассона, некоторые из которых дали бы несколько бинов. Кластеризация использовалась на 2D гистограммах ( изображения , в действительности), чтобы идентифицировать области, которые являются относительно однородными.

-

Если бы у нас была гистограмма с равным количеством и какой-то критерий для оптимизации, мы могли бы тогда попробовать диапазон значений на ячейку и каким-то образом оценить критерий. Упомянутый здесь документ Wand [ paper , или рабочий документ pdf ] и некоторые из его ссылок (например, на статьи Sheather и др.) Описывают оценку ширины «подключаемого модуля», основанную на идеях сглаживания ядра для оптимизации AIMSE; Вообще говоря, такой подход должен быть адаптирован к этой ситуации, хотя я не помню, чтобы это было сделано.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.