Выбор оптимального К для КНН


15

Я выполнил 5-кратное резюме, чтобы выбрать оптимальный K для KNN. И кажется, что чем больше К, тем меньше ошибка ...

введите описание изображения здесь

Извините, у меня не было легенды, но разные цвета представляют разные испытания. Всего их 5, и кажется, что между ними мало различий. Кажется, что ошибка всегда уменьшается, когда K становится больше. Так, как я могу выбрать лучший K? Будет ли K = 3 хорошим выбором здесь, потому что график типа выравнивается после K = 3?


Что вы собираетесь делать с кластерами, когда найдете их? В конечном итоге именно то, что вы собираетесь делать с кластерами, созданными вашим алгоритмом кластеризации, поможет определить, стоит ли использовать больше кластеров для получения небольшой ошибки.
Брайан Борхерс,

Я хочу высокую предсказательную силу. В этом случае ... я должен идти с K = 20? Так как у него самая низкая ошибка. Тем не менее, я на самом деле составил ошибки для K до 100. И 100 имеет самую низкую из всех ошибок ... поэтому я подозреваю, что ошибка будет уменьшаться с увеличением K. Но я не знаю, какова хорошая точка отсечения.
Адриан

Ответы:


12

kkkkk чем меньший, если разница в их ошибках CV незначительна.

Если ошибка CV не начинает расти снова, это, вероятно, означает, что атрибуты не информативны (по крайней мере, для этой метрики расстояния), и предоставление постоянных выходных данных - лучшее, что он может сделать.



0

Есть ли физический или естественный смысл за количеством кластеров? Если я не ошибаюсь, вполне естественно, что с увеличением K погрешность уменьшается - что-то вроде переоснащения. Вместо того, чтобы искать оптимальный K, возможно, лучше выбрать K на основе знаний предметной области или некоторой интуиции?


Я думаю, что этот ответ будет более подходящим для кластеризации k-средних, а не для классификации или регрессии k-nn.
Дикран Сумчатый

Если k слишком велико, вы его недостаточно подбираете, тогда ошибка снова возрастет.
Джеймс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.