Публикация этого здесь для тех, кто сталкивается с моим вопросом в будущем - в оригинальной статье, описывающей алгоритм локального коэффициента выбросов, "LOF: определение локальных выбросов на основе плотности" (Breunig et al), рекомендуется метод выбора значения k , Напомним, что алгоритм LOF сравнивает плотность каждой точки с плотностью ее ближайших соседей. Авторы статьи рекомендуют выбирать минимальное и максимальное и для каждой точки брать максимальное значение LOF для каждого в этом диапазоне. Они предлагают несколько рекомендаций по выбору границ.kkkk
Для минимального значения значения LOF флуктуируют по точкам равномерного распределения для , причем точки равномерного распределения иногда отображаются как выбросы, поэтому они рекомендуют минимум . Во-вторых, минимальное значение служит минимальным размером для того, что можно считать «кластером», так что точки могут быть выбросами относительно этого кластера. Если , и у вас есть группа из точек и точка , каждая точка в группе будет включать в своих ближайших соседях, а будет включать эти точки, что приведет к тому, что у них будут очень похожие LOF. Так что если вы хотите рассмотреть точку рядом с группойk<10min(k)=10kk=1512pppNточки как выброс, а не часть этой группы, ваше к значению должно быть по крайней мере .N
Для максимального значения применяется аналогичный критерий в том смысле, что это должно быть максимальное количество объектов, которые вы хотите считать выбросами, если они объединены в кластеры. Группа из объектов, изолированных от основного набора, может быть либо кластером, либо выбросами; для они будут первыми; для они будут вторыми.NNk<Nk>N
Надеюсь, это поможет любому с подобной проблемой. Полный текст статьи здесь , и обсуждение max / min k-значений начинается на странице 7 и продолжается на странице 9. (Они обозначают значение как MinPts .)k