Я хочу узнать (вывести) веса атрибутов для моей меры отличия, которую я могу использовать для кластеризации.
У меня есть несколько примеров пар объектов, которые «похожи» (должны быть в одном кластере), а также некоторые примеры пар объектов, которые «не похожи» (не должны быть в том же кластере). Каждый объект имеет ряд атрибутов: если вы хотите, мы можем думать о каждом объекте в качестве - мерного вектора признаков, где каждая функция представляет собой неотрицательное целое число. Существуют ли методы использования таких примеров похожих / разнородных объектов для оценки из них оптимальных весов признаков для измерения различий?
Если это поможет, в моем приложении, вероятно, было бы разумно сосредоточиться на изучении меры различия, которая является взвешенной нормой L2:
где веса неизвестны и должны быть изучены. (Или некоторая мера подобия взвешенного косинуса также может быть разумной.) Существуют ли хорошие алгоритмы для изучения весов для такой меры, приведенные в примерах? Или есть какие-то другие методы для изучения меры сходства / меры различия, которые я должен рассмотреть?
Количество измерений, к сожалению, очень велико (тысячи или выше; оно основано на чертах слов). Тем не менее, у меня есть много десятков тысяч примеров. Затем у меня есть сотни тысяч объектов, которые я хочу кластеризовать, поэтому важно обобщить примеры, чтобы получить хороший показатель различий.
Я понимаю, что это попадает в рубрику кластеризации под наблюдением, и это звучит так, как будто это может быть «адаптация сходства», но я не смог найти четкого описания алгоритмов, которые можно использовать для этой цели.