Если переменные ширины ядра часто хороши для регрессии ядра, почему они вообще не хороши для оценки плотности ядра?


17

Этот вопрос вызван обсуждением в другом месте .

Переменные ядра часто используются в локальной регрессии. Например, loess широко используется и работает как сглаживающая регрессия, и основан на ядре переменной ширины, который адаптируется к разреженности данных.

С другой стороны, считается, что переменные ядра приводят к плохим оценкам в оценке плотности ядра (см. Terrell and Scott, 1992 ).

Есть ли интуитивная причина, по которой они будут хорошо работать для регрессии, но не для оценки плотности?


2
Вы написали «С другой стороны, переменные ядра, как обычно полагают, приводят к плохим оценкам в оценке плотности ядра». Какая часть упомянутой вами статьи заставляет вас в это верить? У меня есть много ссылок, которые приводятся в другом разделе, см., Например, ссылки, упомянутые в этом документе: arxiv.org/PS_cache/arxiv/pdf/1009/1009.1016v1.pdf
Робин Джирард

1
Резюме Террелла и Скотта резюмирует это: «Оценщики ближайших соседей во всех версиях плохо работают в одном и двух измерениях». Похоже, они только находят много преимуществ в многомерной оценке плотности.
Роб Хиндман

3
«Ближайший сосед» - не единственная переменная ядра. В работах, которые я упоминаю, используется другой инструмент, такой как алгоритм Лепского. Я прочитаю статью AOS, но, поскольку производительность ближайшего соседа должна уменьшаться с увеличением размера, мне показалось странным, что увеличение размера дает преимущества для «очень непараметрической» оценки (если допустить, что постоянная полоса пропускания является менее непараметрической, чем различная полоса пропускания). В этом типе ситуации, оценочный случай, который часто используется, определяет результаты ...
Робин Жирар

@Robin Girard:> * было странно, что увеличение размерности дает преимущества «очень непараметрической» оценке (если мы допустим, что постоянная полоса пропускания является более непараметрической, чем изменяющаяся полоса пропускания) * есть ли в этом предложении опечатка? В противном случае вы, похоже, согласитесь с авторами, по крайней мере, на интуитивном уровне. Спасибо, чтобы подтвердить / исправить.
user603 19.10.10

@kwak спасибо заметить это! это опечатка: я хотел сказать, что постоянная пропускная способность меньше NP ... Я не могу изменить свой комментарий :( извините за это.
Робин Гирард

Ответы:


2

Здесь, похоже, есть два разных вопроса, которые я постараюсь разделить:

1) чем KS, сглаживание ядра, отличается от KDE, оценки плотности ядра? Ну скажи у меня есть оценщик / сглаживатель / интерполятор

est( xi, fi -> gridj, estj )

а также случайно узнали «реальную» плотность f () в xi. Тогда выполнение est( x, densityf ) должно дать оценку плотности f (): KDE. Вполне может быть, что KS и KDE оцениваются по-разному - разные критерии гладкости, разные нормы - но я не вижу принципиальной разницы. Чего мне не хватает?

2) Как измерение влияет на оценку или сглаживание, интуитивно ? Вот игрушечный пример, просто чтобы помочь интуиции. Рассмотрим прямоугольник с N = 10000 точек в равномерной сетке и окно, линию, квадрат или куб с W = 64 точками внутри него:

                1d          2d          3d          4d
---------------------------------------------------------------
data            10000       100x100     22x22x22    10x10x10x10
side            10000       100         22          10
window          64          8x8         4x4x4       2.8^4
side ratio      .64 %       8 %         19 %        28 %
dist to win     5000        47          13          7

Здесь "соотношение сторон" - это сторона окна / сторона ящика, а "расстояние до выигрыша" - это грубая оценка среднего расстояния от случайной точки в ящике до случайно расположенного окна.

Имеет ли это какой-либо смысл вообще? (Картинка или апплет действительно помогут: кто-нибудь?)

Идея состоит в том, что окно фиксированного размера внутри блока фиксированного размера имеет очень разную близость к остальной части блока, в 1d 2d 3d 4d. Это для равномерной сетки; возможно, сильная зависимость от размерности переносится на другие распределения, а может и нет. В любом случае, это похоже на сильный общий эффект, аспект проклятия размерности.


0

Оценка плотности ядра означает интегрирование по локальному (нечеткому) окну, а сглаживание ядра означает усреднение по локальному (нечеткому) окну.

Y~(Икс)α1ρ(Икс)ΣК(||Икс-Икся||)Yя,

Оценка плотности ядра: ρ(Икс)αΣК(||Икс-Икся||),

Как они одинаковы?

Рассмотрим образцы булевозначной функции, то есть набора, содержащего как «истинные выборки» (каждая со значением единицы), так и «ложные выборки» (каждая с нулевым значением). Предполагая, что общая плотность выборки постоянна (как сетка), локальное среднее значение этой функции тождественно пропорционально локальной (частичной) плотности истинно значимого подмножества. (Ложные выборки позволяют нам постоянно игнорировать знаменатель уравнения сглаживания, при этом добавляя нулевые члены к суммированию, чтобы оно упрощалось в уравнении оценки плотности.)

Точно так же, если ваши выборки были представлены как разреженные элементы в булевом растре, вы могли бы оценить их плотность, применив к растру фильтр размытия.

Чем они отличаются?

Интуитивно можно ожидать, что выбор алгоритма сглаживания будет зависеть от того, содержат ли измерения выборки существенную ошибку измерения.

В одном крайнем случае (без шума) вам просто нужно интерполировать между точно известными значениями в точках выборки. Скажем, с помощью триангуляции Делоне (с билинейной кусочной интерполяцией).

Оценка плотности напоминает противоположную крайность, это полностью шум, так как выборка в отдельности не сопровождается измерением значения плотности в этой точке. (Так что нечего просто интерполировать. Вы можете подумать об измерении площадей ячеек Вороного, но сглаживание / удаление шума все равно будет важно ..)

Дело в том, что, несмотря на сходство, это принципиально разные проблемы, поэтому разные подходы могут быть оптимальными.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.