Пропускная способность ядра: правила Скотта против Сильвермана


14

Может ли кто-нибудь объяснить простым языком, в чем разница между эмпирическими правилами Скотта и Сильвермана для выбора пропускной способности? В частности, когда один лучше другого? Это связано с основным распределением? Количество образцов?

PS Я имею в виду код в SciPy .


1
Я тоже не хочу знать Python. Я просто хочу помочь понять, когда использовать какое правило и почему.
xrfang

Ответы:


11

Комментарии в коде, по-видимому, в конечном итоге определяют два по существу идентично (за исключением относительно небольшой разницы в константе).

сAN-1/5Aс

3,49sN-1/3nclass.scott

1.059 в том, что код называет «оценкой Скотта», содержится в (предыдущей) книге Сильвермана (см. Стр. 45 ссылки на Сильвермана по вашей ссылке - Скотт ведет ее вывод на стр. 130-131 книги, на которую они ссылаются). Это происходит из оценки нормальной теории.

1,059σ

Aσ

По тем же причинам, которые я предлагал ранее, Сильверман предлагает уменьшить 1,059 (фактически он фактически использует 1,06, а не 1,059 - как это делает Скотт в своей книге). Он выбирает уменьшенное значение, которое теряет не более 10% эффективности на IMSE в норме, откуда берется 0,9.

Таким образом, обе эти ширины бина основаны на оптимальной ширине бина IMSE в норме, одна справа от оптимума, другая (примерно на 15% меньше, чтобы получить в пределах 90% эффективности оптимума в норме). [Я бы назвал их обоих "оценками Сильвермана". Я понятия не имею, почему они назвали 1.059 для Скотта.]

На мой взгляд, оба слишком велики. Я не использую гистограммы, чтобы получить IMSE-оптимальные оценки плотности. Если бы это (получение оценок плотности, которые были бы оптимальными в смысле IMSE) было тем, чем я хотел бы заниматься, я бы не хотел использовать гистограммы для этой цели.

На шумной стороне гистограммы должны быть ошибочными (пусть глаз сделает необходимое сглаживание). Я почти всегда удваиваю (или больше) количество бинов по умолчанию, которые дают эти виды правил. Так что я бы не стал использовать 1,06 или 0,9, я бы склонялся к тому, чтобы использовать что-то около 0,5, может быть, меньше при действительно больших размерах выборки.

На самом деле между ними очень мало выбора, поскольку они оба дают слишком мало корзин, чтобы их можно было использовать для поиска того, что происходит в данных (о которых, по крайней мере, при небольших размерах выборки, см. Здесь .

[1]: Скотт, DW (1979), "Об оптимальных и основанных на данных гистограммах", Биометрика , 66 , 605-610.


Согласно документу SciPy здесь , правило Скотта: n ** (- 1./(d+4)). Посмотрев на код, я обнаружил, что неправильно понял правило так же, как «scotts_factor». Вы правы, что пропускная способность слишком велика. Я открою новый вопрос о численном выборе полосы пропускания. Благодарю.
xrfang

Когда вы делаете одномерные данные (dзнак равно1), это N-1/5участие в приведенных формулах. Но это не учитывает изменчивость данных (как измереноA выше), ни термин для того, какой дистрибутив вы пытаетесь оптимизировать рядом (то, что я назвал свыше, как коэффициент 1,059). Это просто, как пропускная способность должна меняться с размером выборки, а не на константы, на которые она должна быть умножена.
Glen_b

@ Glen_b-ReinstateMonica Не могли бы вы взглянуть на вопрос, который я разместил здесь ? Я показываю проблемы, которые может повлечь за собой правило Сильвермана при использовании большого размера выборки. Не могли бы вы ответить, что происходит в деталях?
user269666
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.