Является ли сходство косинусов идентичным l2-нормированному евклидову расстоянию?

Идентичный смысл, что он будет производить идентичные результаты для ранжирования сходства между вектором ¯u и набором векторами V .

У меня есть модель векторного пространства, в которой в качестве параметров используется мера расстояния (евклидово расстояние, косинусное сходство) и метод нормализации (нет, l1, l2). Насколько я понимаю, результаты настроек [косинус, нет] должны быть идентичны или, по крайней мере, действительно очень похожи на [евклидово, l2], но это не так.

На самом деле есть хороший шанс, что система все еще глючит - или у меня есть что-то критическое неправильно в отношении векторов?

редактировать: я забыл упомянуть, что векторы основаны на количестве слов из документов в корпусе. Учитывая документ запроса (который я также преобразую в вектор подсчета слов), я хочу найти документ из моего корпуса, который наиболее похож на него.

Простой расчет их евклидова расстояния - прямая мера, но в той задаче, над которой я работаю, сходство по косинусу часто предпочитают в качестве индикатора сходства, потому что векторы, которые отличаются только по длине, по-прежнему считаются равными. Документ с наименьшим сходством расстояния / косинуса считается наиболее похожим.

— Arne
источник

Все зависит от того, что ваша «модель векторного пространства» делает с этими расстояниями. Не могли бы вы более подробно рассказать о том, что делает модель?

— whuber

Извините, иногда мне трудно выбраться из головы. Я добавил спецификацию.

— Арне

Вы все еще не описываете какую-либо модель. Фактически, единственная подсказка, которую вы оставили относительно «вида задачи, над которой вы работаете», - это тег nlp, но он настолько широк, что не очень помогает. Я надеюсь, что вы можете предоставить, чтобы люди могли понять вопрос и дать хорошие ответы, - это достаточная информация, чтобы точно определить, как вы используете меру расстояния и как она определяет, какими могут быть «результаты».

— whuber

stats.stackexchange.com/a/36158/3277 . Любое угловое, похожее на sscp-подобие, обратимо в соответствующее евклидово расстояние.

— ttnphns

Ответы:

Для -нормализованных векторов , мы имеем квадрат Евклида расстояние пропорционально косинусному расстоянию , То есть, даже если вы нормализуете свои данные и ваш алгоритм не зависит от масштабирования расстояний, вы все равно ожидаете различий из-за возведения в квадрат. $\ell^2$ $\mathbf{x}, \mathbf{y}$

| | Икс | |_{2} знак равно | | Y | |_{2} знак равно 1,

$||\mathbf{x}||_2 = ||\mathbf{y}||_2 = 1,$

\begin{aligned} | | Икс - Y | |_{2}^{2} & знак равно (Икс - Y)^{⊤} (Икс - Y) \\ знак равно {Икс}^{⊤} Икс - 2 {Икс}^{⊤} Y + Y^{⊤} Y \\ знак равно 2 - 2 {Икс}^{⊤} Y \\ знак равно 2 - 2 соз ∠ (Икс, Y) \end{aligned}

$\begin{align} ||\mathbf{x} - \mathbf{y}||_2^2 &= (\mathbf{x} - \mathbf{y})^\top (\mathbf{x} - \mathbf{y}) \\ &= \mathbf{x}^\top \mathbf{x} - 2 \mathbf{x}^\top \mathbf{y} + \mathbf{y}^\top \mathbf{y} \\ &= 2 - 2\mathbf{x}^\top \mathbf{y} \\ &= 2 - 2 \cos\angle(\mathbf{x}, \mathbf{y}) \end{align}$

— Лукас
источник

Повлияет ли это на рейтинг? То есть, если я отсортирую количество векторов 'v_i в V' по их косинусному расстоянию до вектора 'u', я получу для них определенный порядок. Будет ли ранжирование тех же векторов с l_2 нормированным евклидовым расстоянием производить тот же порядок?

— Арне

iirc, поскольку возведение в квадрат представляет собой монотонное преобразование (для положительных чисел), оно не может изменить порядок последовательности, отсортированной по длине.

— Арне

Вы правы, если все, что вы делаете, это ранжируете векторы по их расстоянию до , использование косинусного расстояния должно давать тот же результат, что и евклидово расстояние (для нормализованных векторов).

u

$\mathbf{u}$

— Лукас

Спасибо, у вас есть цитируемый источник для этой связи?

— Арне

Ну, я думаю, что «Linear Alebra I» должно быть достаточно;) Еще раз спасибо за понимание!

— Арне

Стандартное косинусное подобие определяется в евклидовом пространстве следующим образом, предполагая векторы столбцов и : Это сводится к стандартному внутреннему произведению, если ваши векторы нормированы на единичную норму (в l2). В текстовом майнинге такого рода нормализация не является неслыханной, но я бы не стал считать это стандартом. $\mathbf{u}$ $\mathbf{v}$

соз (U, v) знак равно \frac{⟨ U, v ⟩}{| | U | | \cdot | | v | |} знак равно \frac{U^{T} v}{| | U | | \cdot | | v | |} \in [- 1, 1],

$\cos(\mathbf{u}, \mathbf{v}) = \frac{\langle \mathbf{u}, \mathbf{v} \rangle}{\|\mathbf{u}\| \cdot \|\mathbf{v}\|} = \frac{\mathbf{u}^T\mathbf{v}}{\|\mathbf{u}\| \cdot \|\mathbf{v}\|} \in [-1, 1].$

— Марк Клазен
источник