Я пытаюсь найти хороший аргумент о том, почему в машинном обучении можно использовать расстояние Манхэттена над евклидовым расстоянием .
До сих пор я нашел хороший аргумент в этой лекции в Массачусетском технологическом институте .
В 36:15 вы можете увидеть на слайдах следующее утверждение:
«Обычно используют евклидову метрику; Манхэттен может быть уместен, если разные размеры не сопоставимы ».
Вскоре после того, как профессор говорит, что, поскольку число ног рептилии варьируется от 0 до 4 (в то время как другие признаки являются бинарными, изменяются только от 0 до 1), функция «количество ног» в конечном итоге будет иметь гораздо большее вес, если используется евклидово расстояние. Конечно же, это действительно правильно. Но эта проблема также может возникнуть при использовании манхэттенского расстояния (только то, что проблема будет слегка смягчена, потому что мы не возводим в квадрат разницу, как на евклидовом расстоянии).
Лучшим способом решения вышеуказанной проблемы было бы нормализовать функцию «количество ножек», чтобы ее значение всегда находилось в диапазоне от 0 до 1.
Поэтому, поскольку есть лучший способ решения проблемы, мне казалось, что аргументу об использовании манхэттенского расстояния в этом случае не хватало более сильной точки зрения, по крайней мере, на мой взгляд.
Кто-нибудь на самом деле знает, почему и когда кто-то будет использовать расстояние Манхэттена над евклидовым? Кто-нибудь может привести пример, в котором использование манхэттенского расстояния дало бы лучшие результаты?