Одним из типичных случаев применения оценки плотности является обнаружение новизны, то есть обнаружение выброса, когда идея заключается в том, что у вас есть только (или в основном) данные одного типа, но вас интересуют очень редкие, качественные отдельные данные, которые значительно отличаются от эти общие случаи.
Примерами являются обнаружение мошенничества, обнаружение сбоев в системах и так далее. Это ситуации, когда очень сложно и / или дорого собрать данные того типа, который вас интересует. Это редкие случаи, т.е. случаи с низкой вероятностью возникновения.
В большинстве случаев вас не интересует точная оценка точного распределения, а относительные шансы (насколько вероятна данная выборка для фактического выброса, а не для него).
Есть множество учебников и обзоров на эту тему. Это один может быть хорошим , чтобы начать с.
РЕДАКТИРОВАТЬ: для некоторых людей кажется странным использование оценки плотности для обнаружения выбросов. Давайте сначала договоримся об одном: когда кто-то подгоняет смешанную модель к своим данным, он фактически выполняет оценку плотности. Смешанная модель представляет собой распределение вероятностей.
KNN и GMM фактически связаны между собой: это два метода оценки такой плотности вероятности. Это основная идея для многих подходов в обнаружении новизны. Например, этот основан на kNN, другой основан на окнах Парцена (которые подчеркивают эту идею в начале статьи) и многие другие .
Мне кажется (но это только мое личное восприятие), что большинство, если не все, работают над этой идеей. Как еще вы могли бы выразить идею аномального / редкого события?