Жакард Сходство дается
sij=pp+q+r
где,
p = количество положительных атрибутов для обоих объектов
q = количество атрибутов 1 для i и 0 для j
r = количество атрибутов 0 для i и 1 для j
Принимая во внимание, что косинусное сходство = A⋅B∥A∥∥B∥ где A и B - векторы объектов.
Проще говоря, в косинусном сходстве количество общих атрибутов делится на общее количество возможных атрибутов. Принимая во внимание, что в Жаккарде Сходство количество общих атрибутов делится на количество атрибутов, которые существуют по крайней мере в одном из двух объектов.
И есть много других мер сходства, каждый со своими эксцентриситетами. Принимая решение о том, какой из них использовать, попробуйте подумать о нескольких типичных случаях и определите, какой индекс даст наиболее полезные результаты для достижения вашей цели.
Индекс косинуса можно использовать для выявления плагиата, но он не будет хорошим показателем для определения зеркальных сайтов в Интернете. Принимая во внимание, что индекс Jaccard, будет хорошим индексом для идентификации зеркальных сайтов, но не настолько хорош для выявления плагиата копийных макарон (в более крупном документе).
Применяя эти индексы, вы должны тщательно продумать свою проблему и выяснить, как определить сходство. Если у вас есть определение, вы можете пойти по магазинам для индекса.
Редактировать:
Ранее у меня был пример, включенный в этот ответ, который в конечном итоге был неверным. Благодаря нескольким пользователям, которые указали на это, я удалил ошибочный пример.