Выбор правильного расстояния не является элементарной задачей. Когда мы хотим провести кластерный анализ для набора данных, разные результаты могут появиться с использованием разных расстояний, поэтому очень важно быть осторожным, на каком расстоянии выбирать, потому что мы можем создать ложно хороший артефакт, который хорошо отражает изменчивость, но на самом деле без смысл в нашей проблеме.
Евклидово расстояние целесообразно , когда у меня есть непрерывные числовые переменные , и я хочу , чтобы отразить абсолютные расстояния. Это расстояние учитывает каждую переменную и не устраняет избыточности, поэтому, если бы у меня было три переменные, которые объясняют одно и то же (коррелируют), я бы взвесил этот эффект на три. Более того, это расстояние не является инвариантным масштабом, поэтому обычно мне приходится предварительно масштабировать, чтобы использовать это расстояние.
Пример экологии: у нас есть разные наблюдения из разных мест, из которых эксперты взяли образцы некоторых микробиологических, физических и химических факторов. Мы хотим найти закономерности в экосистемах. Эти факторы имеют высокую корреляцию, но мы знаем, что все имеют отношение, поэтому мы не хотим устранять эти избыточности. Мы используем евклидово расстояние с масштабированными данными, чтобы избежать влияния единиц.
Расстояние Махаланобиса подходит, когда у меня есть непрерывные числовые переменные, и я хочу отразить абсолютные расстояния, но мы хотим устранить избыточность. Если у нас есть повторяющиеся переменные, их повторяющийся эффект исчезнет.
Семейство Хеллингер , видовой профиль и расстояние аккордов подходят, когда мы хотим подчеркнуть различия между переменными, когда мы хотим дифференцировать профили. Эти расстояния взвешиваются по суммарным величинам каждого наблюдения таким образом, чтобы расстояния были небольшими, когда переменные переменными, люди более похожи, хотя в абсолютных величинах были очень разными. Осторожно! Эти расстояния очень хорошо отражают разницу между профилями, но потеряли эффект величины. Они могут быть очень полезны, когда у нас разные размеры выборки.
Пример экологии: Мы хотим изучить фауну многих стран, и у нас есть матрица данных инвентаризации брюхоногих моллюсков (места отбора проб в строках и названия видов в колонках). Матрица характеризуется наличием множества нулей и различных величин, потому что в некоторых местах есть некоторые виды, а в других есть другие виды. Мы могли бы использовать расстояние Хеллингера.
Брей-Кертис очень похож, но он более уместен, когда мы хотим дифференцировать профили, а также принимать во внимание относительные величины.