Кто-нибудь использует метрики или для кластеризации, а не ?
Аггарвал и др.
Об удивительном поведении метрик расстояния в многомерном пространстве
сказали (в 2001 г.), что
неизменно предпочтительнее, чем евклидова метрика расстояния для приложений анализа больших размеров данных.
и утверждал, что или могут быть еще лучше.
Причины использования или могут быть теоретическими или экспериментальными, например, чувствительность к выбросам / статьям Кабана или программы, работающие на реальных или синтетических данных (воспроизводимо, пожалуйста). Пример или картина могут помочь моей интуиции.
Этот вопрос является продолжением ответа Боба Дарранта на « Когда ближайший сосед значим сегодня» . По его словам, выбор будет зависеть как от данных, так и от приложения; тем не менее, отчеты о реальном опыте были бы полезны.
Примечания добавлены во вторник, 7 июня:
Я наткнулся на «Статистический анализ данных на основе L1-нормы и связанных с ним методов», Dodge ed., 2002, 454p, isbn 3764369205 - десятки конференционных докладов.
Кто-нибудь может проанализировать концентрацию на расстоянии для экспоненциальных функций iid? Одна из причин экспонент заключается в том, что ; другое (не экспертное) - это распределение максимальной энтропии 0; в-третьих, некоторые реальные наборы данных, в частности SIFT, выглядят примерно экспоненциально.