Если ядро ​​Епанечникова теоретически оптимально при оценке плотности ядра, почему оно не используется чаще?


18

Я читал (например, здесь ), что ядро ​​Епанечникова является оптимальным, по крайней мере в теоретическом смысле, при оценке плотности ядра. Если это правда, то почему гауссиан появляется так часто, как ядро ​​по умолчанию, или во многих случаях единственное ядро, в библиотеках оценки плотности?


2
Здесь сошлись два вопроса: почему не используются чаще? почему Gaussian часто используется по умолчанию / только для ядра? Это может звучать банально, но имя Епанечников может показаться сложным для произношения и произношения для людей, не владеющих этим языком. (Я даже не уверен, что Э. был русским; мне не удалось найти какие-либо биографические детали.) Также, если я покажу (например) би-вес, прокомментируйте его форму колокола, конечную ширину и поведение по краям, которые кажутся проще продать. Епанечников по умолчанию в стате kdensity.
Ник Кокс

3
Я бы добавил, что эта теоретическая оптимальность практически не имеет отношения к практике.
Сиань

2
Это знакомое имя. Если имеет смысл использовать ядро, которое не имеет ограниченной поддержки, вы должны предпочесть его. Что касается моего опыта, он не имеет смысла, поэтому выбор кажется социальным, а не техническим.
Ник Кокс

2
@NickCox, да, E был русский чувак, это не аббревиатура :) Он был загадочным человеком, это все, что вы когда-либо могли найти о нем. Я также помню очень полезную книгу, которую кто-то со своим именем написал о программируемых калькуляторах, да, это было большой вещью в то время
Аксакал

1
@amoeba Работал в Институте радиотехники и электроники Российской Академии Наук им. Котельникова, держу пари, он проводил секретные исследования, полное имя Епанечников Виктор Александрович
Аксакал

Ответы:


7

Причиной, по которой ядро ​​Епанечникова не используется повсеместно для его теоретической оптимальности, вполне может быть то, что ядро ​​Епанечникова на самом деле не является теоретически оптимальным . Цыбаков открыто критикует аргумент о том, что ядро ​​Епанечникова «теоретически оптимально» в с. 16–19 « Введение в непараметрическую оценку» (раздел 1.2.4).

Пытаясь суммировать, при некоторых предположениях о ядре K и фиксированной плотности p получаем, что средняя интегрированная квадратная ошибка имеет вид

(1)1nhK2(u)du+h44SK2(p(x))2dx.

Основная критика Цыбакова, кажется, сводится к минимуму по отношению к неотрицательным ядрам, поскольку часто можно получить более эффективные оценки, которые даже неотрицательны, не ограничиваясь неотрицательными ядрами.

Первый шаг аргумента для ядра Епанечникова начинается с минимизации (1) по h и всем неотрицательным ядрам (а не всем ядрам более широкого класса), чтобы получить «оптимальную» полосу пропускания для K

hMISE(K)=(K2nSK2(p)2)1/5

и "оптимальное" ядро ​​(Епанечников)

K(u)=34(1u2)+

, средний интегрированный квадрат ошибки:

hMISE(K)=(15n(p)2)1/5.

Это, однако, неосуществимый выбор, поскольку они зависят от знания (через p ) неизвестной плотности p - поэтому они являются «оракуловыми» величинами.

Предложение Цыбакова подразумевает, что асимптотический MISE для оракула Епанечникова:

(2)limnn4/5Ep(pnE(x)p(x))2dx=34/551/54((p(x))2dx)1/5.

Цыбаков говорит, что (2) часто утверждается, что он является наилучшим достижимым MISE, но затем показывает, что можно использовать ядра порядка 2 (для которых SK=0 ) для построения оценок ядра для каждого ε>0 , такого, что

lim supnn4/5Ep(p^n(x)p(x))2dxε.

Даже если р п не обязательно неотрицательное, все еще имеет один и тот же результат для положительной части оценки, р + п : = тах ( 0 , р п ) (который гарантированно быть неотрицательным , даже если К нет):p^npn+:=max(0,p^n)K

lim supnn4/5Ep(pn+(x)p(x))2dxε.

Поэтому для ε достаточно мало, существует истинные оценщики , которые имеют меньший асимптотический Mise чем Епанечников оракул , даже используя то же предположение о неизвестной плотности p .

В частности, в результате получается, что инфимум асимптотической MISE для фиксированного p по всем оценкам ядра (или положительным частям оценок ядра) равен 0 . Так что оракул Епанечникова даже близко не является оптимальным, даже если сравнивать с истинными оценщиками.

Причина, по которой люди выдвигают аргумент в пользу оракула Епанечникова, заключается в том, что часто утверждают, что само ядро ​​должно быть неотрицательным, поскольку сама плотность неотрицательна. Но, как указывает Цыбаков, не нужно предполагать, что ядро ​​неотрицательно, чтобы получить неотрицательные оценки плотности, и, допуская другие ядра, можно оценивать неотрицательные плотности, которые (1) не являются оракулами. и (2) выполнять произвольно лучше, чем оракула Епанечникова для фиксированного p . Цыбаков использует это несоответствие, чтобы утверждать, что не имеет смысла спорить об оптимальности в терминах фиксированного p , а только о свойствах оптимальности, которые равномерны по классуплотностей. Он также указывает, что аргумент все еще работает при использовании MSE вместо MISE.

РЕДАКТИРОВАТЬ: см. Также следствие 1.1. на стр.25, где показано, что ядро ​​Епанечникова недопустимо по другому критерию. Цыбакову действительно не нравится ядро ​​Епанечникова.


4
+1 для интересного чтения, но это не ответ , почему Gaussian ядро используется чаще , чем ядро Епанечникова: они оба неотрицательны.
говорит амеба: восстанови Монику

@amoeba Это правда. По крайней мере, это отвечает на вопрос в заголовке, который касается только ядра Епанечникова. (Т.е. он обращается к посылке для вопроса и показывает, что это неверно.)
Chill2Macht

3
(+1) Одна вещь, которую следует остерегаться при использовании схемы Цыбакова, в которой учитывается положительная часть возможной отрицательной оценки ядра, что, по крайней мере, является моей памятью о его предположении, заключается в том, что, хотя полученный в результате оценщик плотности может дать лучшую сходимость MSE к истинной плотности оценка плотности, как правило, не будет действительной (поскольку вы обрезаете массу, и она больше не интегрируется в 1). Если вы на самом деле заботитесь только о MSE, это не имеет значения, но иногда это будет серьезной проблемой.
Дугал

2

Ядро Гаусса используется, например, при оценке плотности через производные:

difdxi(x)1bandwidthj=1Ndikdxi(Xj,x)

Это связано с тем, что ядро ​​Епанечникова имеет 3 производные до того, как оно тождественно равно нулю, в отличие от гауссовского, которое имеет бесконечно много (ненулевых) производных. Смотрите раздел 2.10 в вашей ссылке для большего количества примеров.


2
Первая производная ядра Епанечникова (заметьте , кстати, второе n ) не является непрерывной, когда функция пересекает собственные границы ядра; это может быть больше проблемой.
Glen_b

i

1
@AlexR. Хотя то, что вы говорите, правда, я не понимаю, как это объясняет, почему гауссиану так часто используют при обычной оценке плотности (в отличие от оценки производной плотности). И даже при оценке производных в разделе 2.10 предполагается, что гауссово никогда не является предпочтительным ядром.
Джон Раузер

@JohnRauser: имейте в виду, что для оптимальности нужно использовать ядра эпанечников более высокого порядка. Обычно люди используют гауссов, потому что с ними проще работать, и они имеют более приятные свойства.
Алекс Р.

1
@AlexR Я бы поспорил на "[ты], на самом деле люди используют гауссиан"; У вас есть какие-либо систематические данные о частоте использования или это просто впечатление, основанное на работе, которую вы видите? Я часто вижу би-веса, но я бы не стал требовать большего.
Ник Кокс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.