Идентичный смысл, что он будет производить идентичные результаты для ранжирования сходства между вектором ¯u и набором векторами V .
У меня есть модель векторного пространства, в которой в качестве параметров используется мера расстояния (евклидово расстояние, косинусное сходство) и метод нормализации (нет, l1, l2). Насколько я понимаю, результаты настроек [косинус, нет] должны быть идентичны или, по крайней мере, действительно очень похожи на [евклидово, l2], но это не так.
На самом деле есть хороший шанс, что система все еще глючит - или у меня есть что-то критическое неправильно в отношении векторов?
редактировать: я забыл упомянуть, что векторы основаны на количестве слов из документов в корпусе. Учитывая документ запроса (который я также преобразую в вектор подсчета слов), я хочу найти документ из моего корпуса, который наиболее похож на него.
Простой расчет их евклидова расстояния - прямая мера, но в той задаче, над которой я работаю, сходство по косинусу часто предпочитают в качестве индикатора сходства, потому что векторы, которые отличаются только по длине, по-прежнему считаются равными. Документ с наименьшим сходством расстояния / косинуса считается наиболее похожим.