Пропускная способность ядра в оценке плотности ядра

10

Я делаю некоторую оценку плотности ядра с установленными весовыми точками (т. Е. Каждый образец имеет вес, который не является необходимым) в N измерениях. Кроме того, эти образцы находятся только в метрическом пространстве (то есть мы можем определить расстояние между ними), но не более того. Например, мы не можем определить среднее значение точек выборки, ни стандартное отклонение, ни масштабировать одну переменную по сравнению с другой. Ядро просто зависит от этого расстояния и веса каждого образца:

е (Икс) знак равно \frac{1.}{Σ вес е я г час T s_{я}} * Σ \frac{вес е я г час T_{я}}{час} * К е р N е L (\frac{d я s T a N с е (Икс, {Икс}_{я})}{час})

$f(x) = \frac{1.}{\sum weights_i} * \sum\frac{weight_i}{h} * Kernel(\frac{distance(x,x_i)}{h})$

В этом контексте я пытаюсь найти надежную оценку для пропускной способности ядра , возможно, пространственно изменяющуюся и, предпочтительно, которая дает точную реконструкцию обучающего набора данных . При необходимости можно предположить, что функция относительно гладкая. $h$ $x_i$

Я пытался использовать расстояние до первого или второго ближайшего соседа, но это дает довольно плохие результаты. Я пробовал с оптимизацией без участия, но у меня возникают трудности с поиском подходящей меры для оптимизации в этом контексте в Nd, поэтому он находит очень плохие оценки, особенно для самих обучающих выборок. Я не могу использовать жадную оценку, основанную на нормальном допущении, поскольку не могу вычислить стандартное отклонение. Я нашел ссылки, использующие ковариационные матрицы для получения анизотропных ядер, но опять же, это не будет иметь места в этом пространстве ...

У кого-то есть идея или ссылка?

pdf smoothing kernel-smoothing

— WhitAngl
источник

Если вы можете измерить расстояние, то вы можете измерить среднее. Это правильно? Я мог бы сказать: «Я использую косинусное расстояние для слов», поэтому «среднее слово не имеет большого значения», но я не понимаю, почему его еще нельзя вычислить. Вы можете сказать, что находитесь в порядковом пространстве, поэтому среднее значение не оценивается непрерывно. Почему среднее значение неопределимо?

— EngrStudent

3

Начнем с оценки соседа Сильвермана , но как-то прибавим вес. (Я не уверен, для чего именно ваши веса здесь.) Метод ближайшего соседа, очевидно, может быть сформулирован в терминах расстояний. Я считаю, что ваш первый и второй метод ближайшего соседа являются версиями метода ближайшего соседа, но без функции ядра и с небольшим значением . $k$

— shabbychef
источник

2

На Matlab File Exchange существует функция kde, которая обеспечивает оптимальную полосу пропускания в предположении, что используется ядро Гаусса: Оценщик плотности ядра .

Даже если вы не используете Matlab, вы можете проанализировать этот код для его метода расчета оптимальной пропускной способности. Это высоко оцененная функция при обмене файлами, и я использовал ее много раз.

— Elpezmuerto
источник