Метрики или для кластеризации?


14

Кто-нибудь использует метрики или для кластеризации, а не ? Аггарвал и др. Об удивительном поведении метрик расстояния в многомерном пространстве сказали (в 2001 г.), чтоL1L.5L2

L1 неизменно предпочтительнее, чем евклидова метрика расстояния для приложений анализа больших размеров данных.L2

и утверждал, что или могут быть еще лучше.L.5L.1

Причины использования или могут быть теоретическими или экспериментальными, например, чувствительность к выбросам / статьям Кабана или программы, работающие на реальных или синтетических данных (воспроизводимо, пожалуйста). Пример или картина могут помочь моей интуиции.L1L.5

Этот вопрос является продолжением ответа Боба Дарранта на « Когда ближайший сосед значим сегодня» . По его словам, выбор будет зависеть как от данных, так и от приложения; тем не менее, отчеты о реальном опыте были бы полезны.p


Примечания добавлены во вторник, 7 июня:

Я наткнулся на «Статистический анализ данных на основе L1-нормы и связанных с ним методов», Dodge ed., 2002, 454p, isbn 3764369205 - десятки конференционных докладов.

Кто-нибудь может проанализировать концентрацию на расстоянии для экспоненциальных функций iid? Одна из причин экспонент заключается в том, что ; другое (не экспертное) - это распределение максимальной энтропии 0; в-третьих, некоторые реальные наборы данных, в частности SIFT, выглядят примерно экспоненциально.|expexp|exp


Важно отметить, что Aggarwal et al. в этой конкретной статье, где ищется поведение норм в таких задачах, как кластеризация, ближайший сосед и индексация. Lp
deps_stats

Вы, вероятно, имели в виду метрики для последовательностей, а не L p для функций? На мой взгляд, если есть какой-либо критерий оптимизации, проблему можно решить, оптимизировав его. Правило обычно будет связано с точным решением такого. В любом случае, попытайтесь думать о свойствах решения knn, которые являются предпочтительными. После того, как я прочитал статьи, вероятно, мог бы сказать еще немного по теме. lpLp
Дмитрий Челов

@deps_stats, да, спасибо; изменил название и первую строку. @Dmitrij, 1) да, маленький-л, строго говоря, правильно, но большой-л является общим и понятным. 2) да, можно найти оптимальное p для данной задачи, но каков ваш первый выбор и почему?
Денис

Ответы:


6

Ключевым моментом здесь является понимание «проклятия размерности», на которое ссылается статья. Из википедии: когда количество измерений очень велико,

почти все многомерное пространство находится «далеко» от центра, или, другими словами, можно сказать, что многомерное единичное пространство почти полностью состоит из «углов» гиперкуба, причем почти нет «средний»

В результате, становится все сложнее думать о том, какие точки близки к каким другим точкам, потому что все они более или менее одинаково далеко друг от друга. Это проблема в первой статье, на которую вы ссылаетесь.

Проблема с высоким p состоит в том, что он подчеркивает большие значения - пять квадратов и четыре квадрата - это девять единиц друг от друга, но один квадрат и два квадрата - только три единицы. Таким образом, большие размеры (вещи в углах) доминируют во всем, и вы теряете контраст. Так что этой инфляции больших расстояний - это то, чего вы хотите избежать. При дробном p акцент делается на различиях в меньших измерениях - измерениях, которые на самом деле имеют промежуточные значения - что дает вам больше контраста.


(+1) Итак, @David, вообще есть ли критерий, который описывает качество контраста?
Дмитрий Челов

Похоже, что первая статья, которую вы связали, предлагает максимальное расстояние минус минимальное расстояние. Хотя могут быть и лучшие способы.
Дэвид Дж. Харрис

хорошая ясная интуиция, +1 (хотя неясно, где находятся углы в распределении расстояний). Вы использовали или L .5 на реальных данных? L1L.5
Денис

1
@ Денис Спасибо! Я думаю, что биты углов имеют смысл, если данные ограничены практически или во всех измерениях. Во всяком случае, я боюсь, что у меня недостаточно опыта кластеризации, чтобы иметь хорошее представление о различных показателях для вас. Как ни раздражает, но лучше всего попробовать несколько и посмотреть, что получится
Дэвид Дж. Харрис

1

Существует бумага с использованием метрики Lp с p между 1 и 5, которую вы можете посмотреть:

Аморим Р.К., Миркин Б. Метрика Минковского. Взвешивание признаков и инициализация аномального кластера в кластеризации K-средних. Распознавание образов. 45 (3), с. 1061-1075, 2012

Загрузите, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.