Адаптивные оценки плотности ядра?


12

Кто-нибудь может сообщить о своем опыте с адаптивной оценкой плотности ядра?
(Существует много синонимов: адаптивный | переменная | переменная-ширина, KDE | гистограмма | интерполятор ...)

Переменная оценка плотности ядра говорит: «мы меняем ширину ядра в разных областях выборочного пространства. Есть два метода ...» на самом деле, больше: соседи в пределах некоторого радиуса, ближайшие соседи KNN (обычно K фиксированные), деревья Kd, multigrid ...
Конечно, ни один метод не может сделать все, но адаптивные методы выглядят привлекательно.
Посмотрите, например, красивую картинку адаптивной 2d сетки в методе конечных элементов .

Я хотел бы услышать, что сработало / что не сработало для реальных данных, особенно> = 100k разбросанных точек данных в 2d или 3d.

Добавлено 2 ноября: вот график «комковатой» плотности (кусочно x ^ 2 * y ^ 2), оценки ближайшего соседа и гауссова KDE с коэффициентом Скотта. Хотя один (1) пример ничего не доказывает, он показывает, что NN может достаточно хорошо вписаться в острые холмы (и, используя деревья KD, быстр в 2d, 3d ...) альтернативный текст


Можете ли вы дать немного больше контекста относительно того, что вы подразумеваете под «что работает» или конкретных целей вашего проекта под рукой. Я использовал их для визуализации пространственных точечных процессов, но я сомневаюсь, что именно это вы имели в виду, задавая этот вопрос.
Энди W

Ответы:


7

Статья * Д.Г. Террелл; Д.В. Скотт (1992). "Оценка переменной плотности ядра". Annals of Statistics 20: 1236–1265. * Цитируемый в конце статьи в Википедии, вы сами цитируете ясно, что, если пространство наблюдений не очень редкое, метод переменного ядра не рекомендуется на основе глобальной среднеквадратичной ошибки (обе локальные и глобальные) для гауссовских распределенных случайных величин: (посредством теоретических рассуждений) они приводят цифры ( - размер выборки) и (посредством результатов начальной загрузки) (n p 4 pn450np4p число измерений) как настройки, в которых метод переменного ядра становится конкурентоспособным с фиксированной шириной (судя по вашему вопросу, вы не в этих настройках).

Интуиция за этими результатами заключается в том, что если вы не находитесь в очень разреженных настройках, то локальная плотность просто не изменяется настолько, чтобы усиление смещения превышало потерю эффективности (и, следовательно, AMISE ядра переменной ширины увеличивается относительно AMISE фиксированной ширины). Кроме того, учитывая большой размер выборки (и небольшие размеры), ядро ​​с фиксированной шириной будет уже очень локальным, уменьшая любые потенциальные выгоды с точки зрения смещения.


Спасибо, Квак. «... для гауссовских распределенных случайных величин»; Вы знали бы о более новой работе для "комковатых" распределений?
Денис

@Denis:> 'Clumpy' =? Сконцентрированный =? С более узкими хвостами, чем у гауссов?
user603 14.10.10

Я не специалист, но как «набор данных clumpiness» в работе Ланг и др «Insights на быстро Kernel оценивания плотности алгоритмов», 2004, 8р.
денис

@Denis:> Я бы сказал, что это усугубляет проблему (то есть ядро ​​NN должно работать лучше на менее комковатых данных). У меня есть интуитивное объяснение, но оно здесь не подходит, плюс вы можете задать этот вопрос на основной доске в виде отдельного вопроса (ссылка на него), чтобы получить дополнительные мнения.
user603 20.10.10

0

-1

Loess / lowess - это, по сути, переменный метод KDE, ширина ядра которого устанавливается с помощью подхода ближайшего соседа. Я обнаружил, что он работает довольно хорошо, безусловно, намного лучше, чем любая модель с фиксированной шириной, когда плотность точек данных заметно меняется.

С KDE и многомерными данными следует помнить о проклятии размерности. При прочих равных условиях в пределах заданного радиуса гораздо меньше точек при p ~ 10, чем при p ~ 2. Это может не быть проблемой для вас, если у вас есть только трехмерные данные, но об этом следует помнить.


3
Loess - это метод REGRESSION с переменным ядром. Заданный вопрос об оценке переменной плотности ядра.
Роб Хиндман

Ой, ты прав. Неправильно прочитанный вопрос.
Хонг Оои

@Rob, извините за мои наивные вопросы: если переменная ширина ядра (иногда) хороша для локальной регрессии / сглаживания ядра, почему это плохо для оценки плотности? Разве оценка плотности не является случаем оценки f () для f () == density ()?
Денис

@ Гонконг, сколько очков в твоем Ндиме ты использовал? Спасибо
Денис

@Денис. Отличный вопрос Не могли бы вы добавить это как правильный вопрос на сайте, и мы посмотрим, какие ответы люди могут придумать.
Роб Хиндман
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.