У меня есть группа из n наборов, для которых мне нужно вычислить значение типа «уникальность» или «сходство». Я остановился на индексе Жакара как на подходящей метрике. К сожалению, индекс Жакара работает только с двумя наборами одновременно. Для того чтобы вычислить сходство между всеми множествами, потребуется порядка n 2 вычислений Жакара.
(Если это помогает, обычно составляет от 10 до 10000, и каждый набор содержит в среднем 500 элементов. Кроме того, в конце концов, мне все равно, насколько похожи какие-либо два конкретных набора - скорее, меня интересует только какое внутреннее сходство всей группы множеств есть. (Другими словами, среднее (или, по крайней мере, достаточно точное приближение среднего) всех индексов Жакара в группе))
Два вопроса:
- Есть ли способ по-прежнему использовать индекс Jaccard без сложности ?
- Есть ли лучший способ вычислить сходство / уникальность набора для группы наборов, чем тот, который я предложил выше?