Оценка плотности окна Парцена - это другое название для оценки плотности ядра . Это непараметрический метод оценки непрерывной функции плотности по данным.
Представьте, что у вас есть несколько которые происходят из общего неизвестного, предположительно непрерывного, распределения . Вы заинтересованы в оценке распределения с учетом ваших данных. Одна вещь, которую вы могли бы сделать, это просто посмотреть на эмпирическое распределение и рассматривать его как примерный эквивалент истинного распределения. Однако, если ваши данные непрерывны, то, скорее всего, вы увидите каждыйx1,…,xnfxiточки появляются только один раз в наборе данных, поэтому на основании этого вы бы пришли к выводу, что ваши данные поступают из равномерного распределения, поскольку каждое из значений имеет равную вероятность. Надеемся, что вы можете сделать лучше, чем это: вы можете упаковать ваши данные в некотором количестве равных интервалов и подсчитать значения, которые попадают в каждый интервал. Этот метод будет основан на оценке гистограммы . К сожалению, с гистограммой вы получите некоторое количество бинов, а не непрерывное распределение, так что это только приблизительное приближение.
Оценка плотности ядра является третьей альтернативой. Основная идея заключается в том, что вы приблизительные по смеси непрерывных распределений (используя обозначение ), называемые ядра , которые сосредоточены на точек данных и имеет масштаб ( пропускную способность ) , равную :fKϕxih
fh^(x)=1nh∑i=1nK(x−xih)
Это показано на рисунке ниже, где в качестве ядра используется нормальное распределение, а для оценки распределения используются разные значения ширины полосы с учетом семи точек данных (отмеченных разноцветными линиями в верхней части графиков). Цветные плотности на графиках представляют собой ядра с центром в точках . Обратите внимание, что является относительным параметром, его значение всегда выбирается в зависимости от ваших данных, и одно и то же значение может не дать одинаковых результатов для разных наборов данных.Khxihчh
Ядро можно рассматривать как функцию плотности вероятности, и оно должно интегрироваться в единицу. Он также должен быть симметричным, чтобы и, что следует, центрироваться в нуле. В статье Википедии о ядрах перечислены многие популярные ядра, такие как Gaussian (нормальное распределение), Epanechnikov, прямоугольные (равномерное распределение) и т. Д. В основном любой дистрибутив, отвечающий этим требованиям, может использоваться в качестве ядра.KK(x)=K(−x)
Очевидно, что окончательная оценка будет зависеть от вашего выбора ядра (но не так сильно) и от параметра пропускной способности . Следующий поток
Как интерпретировать значение пропускной способности в оценке плотности ядра? описывает использование параметров полосы пропускания более подробно.h
Говоря об этом на простом английском языке, вы предполагаете, что наблюдаемые точки являются просто образцом и следуют некоторому распределению для оценки. Поскольку распределение непрерывно, мы предполагаем, что существует некоторая неизвестная, но ненулевая плотность вокруг ближней окрестности точек (окрестность определяется параметром ), и мы используем ядра для ее учета. Чем больше точек находится в некоторой окрестности, тем больше плотности накапливается вокруг этой области и, следовательно, выше общая плотность . Результирующая функция теперь может быть оценена для любой точкиИксяеИксячасКечас^ечас^ x ^ f h ( x ) f (Икс(без индекса), чтобы получить оценку плотности для него, мы получили функцию которая является приближением неизвестной функции плотности .ечас^(x)f(x)
Хорошая вещь о плотностях ядра состоит в том, что, в отличие от гистограмм, они являются непрерывными функциями и что они сами являются действительными плотностями вероятности, поскольку они представляют собой смесь действительных плотностей вероятности. Во многих случаях это как можно ближе к приближению .f
Разница между плотностью ядра и другими плотностями, как нормальное распределение, состоит в том, что «обычные» плотности являются математическими функциями, в то время как плотность ядра является приближением к истинной плотности, оцененной с использованием ваших данных, поэтому они не являются «автономными» распределениями.
Я бы порекомендовал вам две замечательные вводные книги по этому предмету от Silverman (1986) и Wand and Jones (1995).
Сильверман, BW (1986). Оценка плотности для статистики и анализа данных. CRC / Чепмен и Холл.
Wand, MP and Jones, MC (1995). Сглаживание ядра. Лондон: Чепмен и Холл / CRC.