Какое расстояние использовать? например, Манхэттен, евклидов, Брей-Кертис и т. д.


11

Я не эколог сообщества, но в настоящее время я работаю над данными по экологии сообщества.

Я не мог понять, кроме математики этих расстояний, критерии для каждого используемого расстояния и в каких ситуациях его можно применять. Например, что использовать с данными подсчета? Как преобразовать угол наклона между двумя точками в расстояние? Или температура или количество осадков в двух местах? Каковы предположения для каждого расстояния и когда это имеет смысл?


Надежный способ понять метрики расстояния, их предположения, значение и применимость - это размышлять над их формулами. Знаете, сравнительная анатомия позволила предсказать, как живут и ведут себя разные животные. Также читайте книги / статьи о дистанционных метриках.
ttnphns

2
Педантическое примечание: Брей-Кертис - это не расстояние, а различие.
Франк Дернонкур

Ответы:


13

К сожалению, в большинстве ситуаций нет четкого ответа на ваш вопрос. То есть для любого конкретного приложения, безусловно, существует множество метрик расстояния, которые дадут аналогичные и точные ответы. Учитывая, что активно используются десятки, а возможно, и сотни действительных метрик расстояний, идея о том, что вы можете найти «правильное» расстояние, не является продуктивным способом думать о проблеме выбора подходящей метрики расстояния.

Вместо этого я бы сосредоточился на том, чтобы не выбирать неправильную метрику расстояния. Хотите ли вы, чтобы ваше расстояние отражало «абсолютную величину» (например, вы заинтересованы в использовании расстояния для идентификации акций, имеющих схожие средние значения), или чтобы отражать общую форму ответа (например, цены на акции, которые изменяются с течением времени аналогичным образом, но может иметь совершенно разные необработанные значения)? Первый сценарий будет указывать расстояния, такие как Манхэттен и Евклид, в то время как последний будет, например, указывать расстояние корреляции.

Если вы знаете ковариационную структуру ваших данных, тогда расстояние Махаланобиса, вероятно, будет более подходящим. Для чисто категориальных данных есть много предложенных расстояний, например, совпадающее расстояние. Для смешанного категориального и непрерывного расстояние Гауэра популярно (хотя, на мой взгляд, несколько теоретически неудовлетворительно).

Наконец, по моему мнению, ваш анализ будет усилен, если вы продемонстрируете, что ваши результаты и выводы соответствуют выбору метрики расстояния (конечно, в пределах подмножества соответствующих расстояний). Если ваш анализ резко меняется при незначительных изменениях в используемой метрике расстояния, необходимо провести дальнейшее исследование, чтобы определить причину несоответствия.


1
Что вы имеете в виду correlation distance? 1- р ?
ttnphns

1
1-рρ[-1,1]соs-1(ρ)1-ρ2-2ρпрaсTясе

Цитата для моего последнего комментария: Krzanowski (1983). Биометрика, 70 (1), 235--243. См. Стр. 236.
Ахфосс

1
Хорошо, спасибо. Проверьте также этот ответ, пожалуйста. Это указывает на то, что r точно связано с евклидовым расстоянием, полученным по стандартизированным данным (сравниваемым профилям), что, reflect overall shape of the responseпо вашим словам.
ttnphns

1
Хороший пост. Как вы указали, две метрики действительно связаны между собой. Чтобы контекстуализировать ваши замечания к текущему обсуждению, ключевое отличие состоит в том, что в евклидовых переменных расстояния (как правило) не центрированы, а формула корреляции центрирует переменные и шкалы по их стандартному отклонению. Таким образом, корреляция инвариантна к линейным преобразованиям, а евклидово расстояние необязательно.
Ахфосс

6

Выбор правильного расстояния не является элементарной задачей. Когда мы хотим провести кластерный анализ для набора данных, разные результаты могут появиться с использованием разных расстояний, поэтому очень важно быть осторожным, на каком расстоянии выбирать, потому что мы можем создать ложно хороший артефакт, который хорошо отражает изменчивость, но на самом деле без смысл в нашей проблеме.

Евклидово расстояние целесообразно , когда у меня есть непрерывные числовые переменные , и я хочу , чтобы отразить абсолютные расстояния. Это расстояние учитывает каждую переменную и не устраняет избыточности, поэтому, если бы у меня было три переменные, которые объясняют одно и то же (коррелируют), я бы взвесил этот эффект на три. Более того, это расстояние не является инвариантным масштабом, поэтому обычно мне приходится предварительно масштабировать, чтобы использовать это расстояние.
Пример экологии: у нас есть разные наблюдения из разных мест, из которых эксперты взяли образцы некоторых микробиологических, физических и химических факторов. Мы хотим найти закономерности в экосистемах. Эти факторы имеют высокую корреляцию, но мы знаем, что все имеют отношение, поэтому мы не хотим устранять эти избыточности. Мы используем евклидово расстояние с масштабированными данными, чтобы избежать влияния единиц.

Расстояние Махаланобиса подходит, когда у меня есть непрерывные числовые переменные, и я хочу отразить абсолютные расстояния, но мы хотим устранить избыточность. Если у нас есть повторяющиеся переменные, их повторяющийся эффект исчезнет.

Семейство Хеллингер , видовой профиль и расстояние аккордов подходят, когда мы хотим подчеркнуть различия между переменными, когда мы хотим дифференцировать профили. Эти расстояния взвешиваются по суммарным величинам каждого наблюдения таким образом, чтобы расстояния были небольшими, когда переменные переменными, люди более похожи, хотя в абсолютных величинах были очень разными. Осторожно! Эти расстояния очень хорошо отражают разницу между профилями, но потеряли эффект величины. Они могут быть очень полезны, когда у нас разные размеры выборки.
Пример экологии: Мы хотим изучить фауну многих стран, и у нас есть матрица данных инвентаризации брюхоногих моллюсков (места отбора проб в строках и названия видов в колонках). Матрица характеризуется наличием множества нулей и различных величин, потому что в некоторых местах есть некоторые виды, а в других есть другие виды. Мы могли бы использовать расстояние Хеллингера.

Брей-Кертис очень похож, но он более уместен, когда мы хотим дифференцировать профили, а также принимать во внимание относительные величины.


Спасибо за различие между вариантами использования и примерами. Нашел это очень полезным в применении к модели авиационной классификации.
S3DEV

4

Относительно манхэттенского расстояния: Кауфман, Леонард и Питер Дж. Руссеув. «Поиск групп в данных: введение в кластерный анализ». (2005).

Использование манхэттенского расстояния рекомендуется в тех ситуациях, когда, например, разница 1 в первой переменной и 3 во второй переменной равна разнице 2 в первой переменной и 2 во второй.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.