Как найти веса для меры диссимилиарности

Я хочу узнать (вывести) веса атрибутов для моей меры отличия, которую я могу использовать для кластеризации.

У меня есть несколько примеров $(a_i,b_i)$ пар объектов, которые «похожи» (должны быть в одном кластере), а также некоторые примеры пар объектов, которые «не похожи» (не должны быть в том же кластере). Каждый объект имеет ряд атрибутов: если вы хотите, мы можем думать о каждом объекте в качестве - мерного вектора признаков, где каждая функция представляет собой неотрицательное целое число. Существуют ли методы использования таких примеров похожих / разнородных объектов для оценки из них оптимальных весов признаков для измерения различий? $(c_i,d_i)$ $d$

Если это поможет, в моем приложении, вероятно, было бы разумно сосредоточиться на изучении меры различия, которая является взвешенной нормой L2:

d (x, y) = \sum_{j} α_{j} (x [j] - y [j])^{2} .

$d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2.$

где веса неизвестны и должны быть изучены. (Или некоторая мера подобия взвешенного косинуса также может быть разумной.) Существуют ли хорошие алгоритмы для изучения весов для такой меры, приведенные в примерах? Или есть какие-то другие методы для изучения меры сходства / меры различия, которые я должен рассмотреть? $\alpha_j$ $\alpha_j$

Количество измерений, к сожалению, очень велико (тысячи или выше; оно основано на чертах слов). Тем не менее, у меня есть много десятков тысяч примеров. Затем у меня есть сотни тысяч объектов, которые я хочу кластеризовать, поэтому важно обобщить примеры, чтобы получить хороший показатель различий.

Я понимаю, что это попадает в рубрику кластеризации под наблюдением, и это звучит так, как будто это может быть «адаптация сходства», но я не смог найти четкого описания алгоритмов, которые можно использовать для этой цели.

— DW
источник

Очень интересная проблема. Если я правильно понял вашу проблему, вам дают в основном пустую матрицу с элементами, кодирующими попарное сходство или различие. Некоторые элементы заполнены, но большинство отсутствует. Я попытался бы сначала заполнить эту матрицу (например, используя предположение низкого ранга).

— Владислав Довгальец

@xeon, это один из подходов, но он игнорирует особенности. Моя гипотеза состоит в том, что некоторые функции являются весьма релевантными, а некоторые функции не релевантными, и что рассмотрение различий в соответствующих функциях дает разумную метрику различия - но как мы можем найти эту метрику? Простая попытка дополнить матрицу, как вы предлагаете, игнорирует эту структуру и, таким образом, не в полной мере использует данные, которые мы имеем.

— DW

Какова ваша конечная цель? Это не просто узнать метрику расстояния, верно? Вы хотите классифицировать точки данных, не так ли?

— Владислав Довгальец

Есть вещи, которые, я думаю, вы не прояснили очень четко. Образует ли весь набор пар примеров полную двоичную (1 = аналогичная; 0 = разнородная) матрица или отсутствует информация о некоторых ячейках? Является ли матрица «непротиворечивой», то есть примерные объекты разбиваются на непересекающиеся классы? Кроме того, обратите внимание, что ни один метод обучения не может (или не должен использоваться) рекомендовать вам тип меры (такой как, например, норма L2 или L1), потому что такой выбор является теоретическим (он зависит от вида атрибутов, концептуализации функции). пространство, метод кластеризации, который вы собираетесь использовать).

— ttnphns

Это слишком широко, чтобы здесь можно было разумно ответить. Существует большое количество литературы, посвященной как взвешиванию, отбору, так и изучению дистанционных функций. Я думаю, что я видел даже конференцию по изучению сходства или около того!

— ВЫЙТИ - Anony-Mousse

Это большая проблема в некоторых областях машинного обучения. Я не настолько знаком с этим, как хотелось бы, но я думаю, что это должно помочь вам начать.

Сокращение размерности путем изучения инвариантного отображения (DrLIM), кажется, очень хорошо работает на некоторых наборах данных.
Анализ компонентов соседства - это очень хороший линейный алгоритм, и были также разработаны нелинейные версии.
Существует целая литература, которая занимается этим вопросом с точки зрения «изучения ядра». Я не знаю много об этом, но эта статья очень цитируется.

$L_2$

— Дэвид Дж. Харрис
источник

Q

$Q$

A

$A$

Я не понимаю, почему вы не можете включить это ограничение. Я не уверен, что у получившейся модели есть имя.

— Дэвид Дж. Харрис

$a_i$ $1/w_i$

Другими словами, вы спрашиваете о предварительной обработке и масштабировании данных. Это слишком широкий вопрос, чтобы на него можно было ответить в одном вопросе. Искать:

выбор функции
функция взвешивания
нормализация
уменьшение размерности
другие методы проекции
другие функции расстояния
"учиться рангу"

Существует огромное количество литературы и даже конференций, посвященных этому. Некоторые методы для начала:

— ВЫЙТИ - Anony-Mousse
источник