Оценка плотности ядра с учетом неопределенностей


12

При визуализации одномерных данных обычно используется метод оценки плотности ядра для учета неправильно выбранных ширин.

Если в моем одномерном наборе данных есть погрешности измерения, существует ли стандартный способ включения этой информации?

Например (и простите, если мое понимание наивно), KDE сворачивает гауссовский профиль с дельта-функциями наблюдений. Это Gaussian ядро разделяется между каждым адресом, но гауссовой параметр может быть изменен , чтобы соответствовать неопределенности измерений. Есть ли стандартный способ сделать это? Я надеюсь отразить неопределенные значения с широкими ядрами.σ

Я реализовал это просто в Python, но я не знаю стандартного метода или функции для выполнения этого. Есть ли проблемы в этой технике? Я отмечаю, что это дает некоторые странно выглядящие графики! Например

Сравнение KDE

В этом случае низкие значения имеют большую неопределенность, поэтому стремятся обеспечить широкие плоские ядра, тогда как KDE перевешивает низкие (и неопределенные) значения.


Вы говорите, что красные кривые - гауссианы переменной ширины, а зеленая - их сумма? (Это не выглядит правдоподобно из этих графиков.)
whuber

знаете ли вы, какова ошибка измерения для каждого наблюдения?
Аксакал

@whuber красные кривые - гауссианы переменной ширины, а синяя - их сумма. Зеленая кривая - это KDE с постоянной шириной, извините за путаницу
Саймон Уолкер

@Aksakal да, у каждого измерения есть различная неопределенность
Саймон Уолкер

Побочный вопрос, но это не определение оценки плотности ядра, когда вы используете ядра Гаусса. Вы можете использовать любое ядро, которое вам нравится интегрировать в 1, хотя некоторые ядра более разумны или полезны, чем другие ....
Ник Кокс

Ответы:


6

Имеет смысл изменять ширину, но не обязательно, чтобы ширина ядра соответствовала неопределенности.

Учитывайте назначение полосы пропускания при работе со случайными переменными, для которых наблюдения практически не имеют неопределенности (т. Е. Где вы можете наблюдать их достаточно близко к точному) - даже в этом случае kde не будет использовать нулевую полосу пропускания, поскольку полоса пропускания относится к изменчивость в распределении, а не неопределенность в наблюдении (то есть вариация «между наблюдениями», а не неопределенность «в рамках наблюдения»).

То, что у вас есть, - это, по сути, дополнительный источник вариаций (в случае «отсутствия наблюдения-неопределенности»), который отличается для каждого наблюдения.

σi

Альтернативный способ взглянуть на проблему состоит в том, чтобы рассматривать каждое наблюдение как маленькое ядро ​​(как вы это сделали, которое будет представлять, где могло бы быть наблюдение), но сворачивать обычное (kde-) ядро ​​(обычно с фиксированной шириной, но не должно быть) с ядром неопределенности наблюдения, а затем сделать комбинированную оценку плотности. (Я полагаю, что это на самом деле тот же результат, что я предложил выше.)


2

Я бы применил оценщик плотности ядра с переменной полосой пропускания, например, локальные селекторы полосы пропускания для работы по оценке плотности ядра с преобразованием, пытающейся построить адаптивное окно KDE, когда известно распределение ошибок измерения. Вы заявили, что знаете дисперсию ошибок, поэтому этот подход должен быть применим в вашем случае. Вот еще одна статья о подобном подходе с загрязненным образцом: ВЫБОР BOOTSTRAP BANDWIDTH В ОЦЕНКЕ ПЛОТНОСТИ ЯДРА ИЗ ЗАГРЯЗНЕННОГО ОБРАЗЦА


Ваша первая ссылка приводит меня к ms.unimelb.edu.au , это не газета. Я думаю, что вы имеете в виду link.springer.com/article/10.1007/s11222-011-9247-y
Ади Ро

Эти решения выглядят великолепно! Вы знаете код, реализующий их?
Ади Ро

@AdiRo, я исправил неработающую ссылку. У меня нет кода
Аксакал

0

Вы можете обратиться к главе 6 «Оценка многовариантной плотности: теория, практика и визуализация» Дэвида В. Скотта, 1992, Wiley.

h=(4/3)1/5σn1/5(6.17)
σnhσ

f^(x)=1nhi=1nK(xxih)
K()

0

На самом деле, я думаю, что предложенный вами метод называется графиком плотности вероятности (PDP), который широко используется в геонауке, см. Статью здесь: https://www.sciencedirect.com/science/article/pii/S0009254112001878

Тем не менее, есть недостатки, как упомянуто в статье выше. Например, если измеренные ошибки невелики, в PDF-файле, который вы в итоге получите, будут всплески. Но можно также сгладить PDP, как в KDE, так же, как упомянул @ Glen_b ♦

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.