Где оценка плотности полезна?


14

Пройдя немного лаконичную математику, я думаю, что у меня есть небольшая интуиция оценки плотности ядра. Но я также знаю, что оценка многомерной плотности для более чем трех переменных может быть не очень хорошей идеей с точки зрения статистических свойств ее оценок.

Итак, в каких ситуациях я должен оценивать, скажем, двумерную плотность, используя непараметрические методы? Достаточно ли того, чтобы начать беспокоиться об оценке его для более чем двух переменных?

Если вы можете указать на несколько полезных ссылок, касающихся применения оценки многомерной плотности, это было бы здорово.

Ответы:


16

Одним из типичных случаев применения оценки плотности является обнаружение новизны, то есть обнаружение выброса, когда идея заключается в том, что у вас есть только (или в основном) данные одного типа, но вас интересуют очень редкие, качественные отдельные данные, которые значительно отличаются от эти общие случаи.

Примерами являются обнаружение мошенничества, обнаружение сбоев в системах и так далее. Это ситуации, когда очень сложно и / или дорого собрать данные того типа, который вас интересует. Это редкие случаи, т.е. случаи с низкой вероятностью возникновения.

В большинстве случаев вас не интересует точная оценка точного распределения, а относительные шансы (насколько вероятна данная выборка для фактического выброса, а не для него).

Есть множество учебников и обзоров на эту тему. Это один может быть хорошим , чтобы начать с.

РЕДАКТИРОВАТЬ: для некоторых людей кажется странным использование оценки плотности для обнаружения выбросов. Давайте сначала договоримся об одном: когда кто-то подгоняет смешанную модель к своим данным, он фактически выполняет оценку плотности. Смешанная модель представляет собой распределение вероятностей.

KNN и GMM фактически связаны между собой: это два метода оценки такой плотности вероятности. Это основная идея для многих подходов в обнаружении новизны. Например, этот основан на kNN, другой основан на окнах Парцена (которые подчеркивают эту идею в начале статьи) и многие другие .

Мне кажется (но это только мое личное восприятие), что большинство, если не все, работают над этой идеей. Как еще вы могли бы выразить идею аномального / редкого события?


В записке, изложенной вами (раздел 6, «подход на основе плотности»), изложены некоторые очень эзотерические (далеко не среднестатистические и тихие разработанные материалы по этому вопросу) подходы к обнаружению выбросов. Конечно, более общие приложения должны существовать.
user603

2
Извините, я не понимаю ваш комментарий. Два очень простых примера - это KNN и GMM. Эти два метода дают оценки плотности вероятности и могут использоваться для таких случаев.
jpmuc

Благодарю. что такое GMM? Я не думаю, что kNN - это подход среднего потока к обнаружению выбросов. Можете ли вы сослаться на недавний учебник по надежной статистике, где он используется в этом контексте? (Я посмотрел на бумаги в наборе слайдов, на который вы указали, что относящиеся к обнаружению выбросов кажутся либо материалами конференции, либо старыми книгами)
user603

GMM = модель гауссовой смеси. На слайдах они относятся к баллам, основанным на kNN. Я лично использовал SVM для нового обнаружения. К сожалению, я не могу рекомендовать вам конкретный учебник. Возможно, этих заметок ( stats.ox.ac.uk/pub/StatMeth/Robust.pdf ) достаточно.
jpmuc

1
Я полностью согласен с @ user603. Оценка плотности на первый взгляд - очень странный и косвенный способ попытаться найти выбросы. Ваш ответ будет усилен, если кратко изложить, как это применяется на практике - и почему вы считаете, что это работает хорошо.
Ник Кокс

4

(Икся)

ечас(Икс)αΣИксяехр(-(Икся-Икс)TΣ-1(Икся-Икс)),
Σ-1Икся

4

Как правило , KDE рекламируется как альтернатива гистограммам. В этом контексте главное преимущество KDE над гистограммами состоит в том, чтобы смягчить влияние произвольно выбранных параметров на визуальный вывод процедуры. В частности (как показано в ссылке выше), KDE не нужно, чтобы пользователь указывал начальную и конечную точки.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.