Как я могу преобразовать расстояние (евклидово) в показатель сходства

13

Я использую $k$ означает кластеризацию для кластеризации голосов ораторов. Когда я сравниваю высказывание с данными кластерного динамика, я получаю (евклидово основанное на расстоянии) среднее искажение. Это расстояние может быть в диапазоне $[0,\infty]$ . Я хочу преобразовать это расстояние в $[0,1]$ сходство. Пожалуйста, объясните мне, как я могу этого достичь.

— Мухаммед
источник

15

Если представляет евклидово расстояние от точки до точки , $d(p_1,p_2)$ $p_1$ $p_2$

\frac{1}{1 + d (p_{1}, p_{2})}

$\frac{1}{1 + d(p_1, p_2)}$

обычно используется.

— TrynnaDoStat
источник

Пожалуйста , поправьте меня , если я ошибаюсь, если мы имеем

и

где каждый

и

имеет размерность

. Тогда мы можем определить сходство, например,

X = (x_{1}, x_{2}, x_{3}, . . ., x_{t})

$X = (x_1,x_2,x_3,...,x_t)$

Y = (Y_{1}, Y_{2}, Y_{3}, . . ., Y_{n})

$Y = (Y_1,Y_2,Y_3,...,Y_n)$

x

$x$

y

$y$

D

$D$

.

S i m i l a r i t y = \frac{1}{t} \sum_{i = 1}^{t} \frac{1}{1 + m i n D i s t a n c e (x_{i}, Y)}

$Similarity = \frac{1}{t} \sum\limits_{i=1}^t \frac{1}{ 1+ minDistance(x_i, Y)}$

— Мухаммед

Я понимаю, что плюс 1 в знаменателе состоит в том, чтобы избежать деления на ноль ошибок. Но я обнаружил, что значение «плюс один» непропорционально влияет на значения d (p1, p2), которые больше 1, и в конечном итоге значительно снижает оценку сходства. Есть ли другой способ сделать это? Возможно s = 1-d (p1, p2)

— aamir23

9

Вы также можете использовать: гдеваша желаемая функция расстояния. $\frac{1}{e^{dist}}$ dist

— Необработанное исключение
источник

Можете ли вы дать какой-либо справочник / документацию, относящуюся к этому уравнению, в котором вы его нашли? @Dougal

— Justlife

@AnimeshKumarPaul Я не писал этот ответ, просто улучшил его форматирование. Но он часто используется как версия, например, «обобщенного ядра RBF»; см. например здесь . Этот вопрос касается того, является ли вывод положительно определенным ядром; однако если вас это не волнует, это, по крайней мере, удовлетворяет интуитивному представлению о сходстве, что более отдаленные точки менее похожи.

— Дугал

@Justlife: Google для этой "энциклопедии расстояний" и выберите результат в PDF-документе.

— необработанное исключение

7

Звучит так, будто вы хотите что-то похожее на косинусное сходство, которое само по себе является показателем сходства в единичном интервале. На самом деле существует прямая связь между евклидовым расстоянием и косинусным сходством!

Обратите внимание, что

| | x - x^{'} | |^{2} = (x - x^{'})^{T} (x - x^{'}) = | | x | | + | | x^{'} | | - 2 | | x - x^{'} | | .

$||x-x^\prime||^2=(x-x^\prime)^T(x-x^\prime)=||x||+||x^\prime||-2||x-x^\prime||.$

f (x, x^{'}) = \frac{x^{T} x^{'}}{| | x | | | | x^{'} | |} = \cos (θ)

$f(x,x^\prime)=\frac{x^T x^\prime}{||x||||x^\prime||}=\cos(\theta)$

θ

$\theta$

x

$x$

x^{'}

$x^\prime$ .

$||x||=||x^\prime||=1,$ we have

| | x - x^{'} | |^{2} = 2 (1 - f (x, x^{'}))

$||x-x^\prime||^2=2(1-f(x,x^\prime))$ and

f (x, x^{'}) = x^{T} x^{'},

$f(x,x^\prime)=x^T x^\prime,$

so

1 - \frac{| | x - x^{'} | |^{2}}{2} = f (x, x^{'}) = \cos (θ)

$1-\frac{||x-x^\prime||^2}{2}=f(x,x^\prime)=\cos(\theta)$ in this special case.

From a computational perspective, it may be more efficient to just compute the cosine, rather than Euclidean distance and then perform the transformation.

— Sycorax says Reinstate Monica
источник

3

How about a Gaussian kernel ?

$K(x, x') = \exp\left( -\frac{\| x - x' \|^2}{2\sigma^2} \right)$

The distance $\|x - x'\|$ is used in the exponent. The kernel value is in the range $[0, 1]$ . There is one tuning parameter $\sigma$ . Basically if $\sigma$ is high, $K(x, x')$ will be close to 1 for any $x, x'$ . If $\sigma$ is low, a slight distance from $x$ to $x'$ will lead to $K(x,x')$ being close to 0.

— wij
источник

1

Note that this answer and @Unhandled exception's are very related: this is

\exp (- γ d (x, x^{'})^{2})

$\exp\left( - \gamma d(x, x')^2 \right)$ , where that one [introducing a scaling factor] is

\exp (- γ d (x, x^{'}))

$\exp\left( - \gamma d(x, x') \right)$ , a Gaussian kernel with

\sqrt{d}

$\sqrt{d}$ as the metric. This will still be a valid kernel, though the OP doesn't necessarily care about that.

— Dougal

0

If you are using a distance metric that is naturally between 0 and 1, like Hellinger distance. Then you can use 1 - distance to obtain similarity.

— Brad
источник