Контролируемая кластеризация или классификация?


22

Второй вопрос заключается в том, что я обнаружил, что где-то в сети обсуждалась «контролируемая кластеризация», насколько я знаю, кластеризация не контролируется, так что именно означает «контролируемая кластеризация»? В чем разница с «классификацией»?

Об этом много ссылок:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

так далее ...


пожалуйста, дайте ссылку "обсуждение где-то в Интернете"
Атилла Озгур

2
@AtillaOzgur есть много ссылок, говорящих о контролируемой кластеризации, я добавил некоторые из них в свой пост: [1]: cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf [2]: books.nips .cc /apers / files / nips23 / NIPS2010_0427.pdf [3]: engr.case.edu/ray_soumya/mlrg/… [4]: public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf [5] : machinelearning.org/proceedings/icml2007/papers/366.pdf [6]: jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf
2012 г.,

1
«Кластеризация» является синонимом «неконтролируемой классификации», поэтому «контролируемая кластеризация» является оксюмороном. Однако можно утверждать, что самоорганизующиеся карты являются контролируемой техникой, используемой для неконтролируемой классификации, которая была бы наиболее близкой к «контролируемой кластеризации».
Digio

Насколько я понял, «мы используем кластеризацию, чтобы упорядочить данные, чтобы подготовить их к дальнейшей обработке или, по крайней мере, подготовить к дальнейшему анализу», поэтому в кластеризации мы делим данные на классы A, B, C и так далее ... Так что теперь эти данные каким-то образом контролируются. Теперь это зависит от требования, что вы хотите сделать с этими данными или как эти данные могут быть полезны вам для операций классификации или регрессии. Поправь меня, если я ошибаюсь.
Сак

Ответы:


2

Я наивно понимаю, что классификация выполняется там, где у вас есть определенный набор классов, и вы хотите классифицировать новую вещь / набор данных в один из этих указанных классов.

Альтернативно, кластеризация не имеет ничего общего с началом, и вы используете все данные (включая новые) для разделения на кластеры.

Оба используют метрики расстояния, чтобы решить, как кластеризовать / классифицировать. Разница в том, что классификация основана на ранее определенном наборе классов, тогда как кластеризация определяет кластеры на основе всех данных.

Опять же, мое наивное понимание состоит в том, что контролируемая кластеризация по-прежнему кластеризована на основе всех данных и, следовательно, будет кластеризацией, а не классификацией.

В действительности я уверен, что теория кластеризации и классификации взаимосвязана.


Я смиренно не согласен. Вы предполагаете, что «классификация» является по определению и по умолчанию контролируемым процессом, что не соответствует действительности. Классификация делится на контролируемые и неконтролируемые случаи, причем последние являются синонимами кластеризации.
Digio

15

Я не думаю, что знаю больше, чем вы, но ссылки, которые вы разместили, предлагают ответы. Я возьму http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf в качестве примера. В основном они заявляют: 1) кластеризация зависит от расстояния. 2) успешное использование k-средних требует тщательно подобранного расстояния. 3) Учитывая обучающие данные в форме наборов элементов с их желаемым разделением, мы предоставляем структурный метод SVM, который изучает меру расстояния, так что k-means создает желаемые кластеризации.В этом случае существует контролируемая стадия кластеризации, как с данными обучения, так и с обучением. Целью этого этапа является изучение функции расстояния, так что применение кластеризации k-средних с этим расстоянием, будем надеяться, будет оптимальным, в зависимости от того, насколько хорошо обучающие данные напоминают предметную область. Все обычные предостережения, подходящие для машинного обучения и кластеризации, все еще применяются.

Далее цитата из статьи: Контролируемая кластеризация - это задача автоматической адаптации алгоритма кластеризации с помощью обучающего набора, состоящего из наборов элементов и полных разбиений этих наборов элементов. , Это кажется разумным определением.


Проблема проста: почему вы хотите узнать меру расстояния из набора помеченных обучающих данных, а затем применить эту меру расстояния с помощью метода кластеризации; почему бы вам не просто использовать контролируемый метод. Другими словами, вы хотите выполнить кластеризацию (т.е. разбить ваш набор данных на кластеры), но вы предполагаете, что у вас уже есть полное желаемое разбиение и что вы будете использовать его для изучения меры расстояния, а затем примените кластеризацию к этому набору данных, используя этот изученный расстояние. В лучшем случае вы получите те же разделы, которые вы использовали для изучения меры расстояния! У вас уже есть
shn

Там, где вы пишете «затем примените кластеризацию к этому набору данных», замените «затем примените кластеризацию к подобным наборам данных». Именно этот сценарий: в эксперименте X у нас есть данные A и B. A - для кластеризации, B - помогает в изучении расстояния. B устанавливает золотой стандарт и, по-видимому, является дорогостоящим. В последующих экспериментах X2, X3 .. мы получаем A, но не можем позволить себе получить B.
micans

Хорошо, теперь, когда вы говорите «изучение расстояния» из набора данных B: вы имеете в виду «изучение некоторого порогового значения расстояния» или «изучение метрической функции расстояния» (своего рода параметризованная мера различия)?
Шн

1
Я имею в виду второе, «обучение метрической функции расстояния». После прочтения, кстати, моя простая формулировка A и B, приведенная выше, может быть найдена в цитируемой рукописи: «Учитывая обучающие примеры наборов элементов с их правильной кластеризацией, цель состоит в том, чтобы изучить меру сходства, чтобы будущие наборы элементов были кластеризованы подобным образом. "
micans

1
Итак, кажется, что «контролируемая кластеризация» очень похожа на так называемую «полууправляемую кластеризацию». До сих пор я не вижу никакой разницы. Кстати, в некоторых других статьях «(частично) контролируемая кластеризация» не относится к «созданию модифицированной функции расстояния», которая будет использоваться для кластеризации будущих наборов данных аналогичным образом; это скорее о «изменении самого алгоритма кластеризации» без изменения функции расстояния!
Шн

3

Некоторые определения:

контролируемая кластеризация применяется к классифицированным примерам с целью идентификации кластеров, которые имеют высокую плотность вероятности для одного класса.

Неуправляемая кластеризация - это обучающая структура, использующая определенные функции объекта, например, функцию, которая минимизирует расстояния внутри кластера, чтобы держать кластер напряженным.

Полууправляемая кластеризация призвана улучшить алгоритм кластеризации, используя дополнительную информацию в процессе кластеризации.

Достижения в нейронных сетях - ISNN 2010

Без использования слишком большого количества жаргона, так как я новичок в этой области, способ, которым я понимаю контролируемую кластеризацию , более похож на это:

в контролируемой кластеризации вы начинаете сверху внизс некоторыми предопределенными классами, а затем, используя подход « снизу вверх», вы находите, какие объекты лучше вписываются в ваши классы.

Например, вы провели исследование относительно любимого типа апельсинов в популяции.
Из множества видов апельсинов вы обнаружили, что определенный «вид» апельсинов является предпочтительным.
Тем не менее, этот тип апельсина очень деликатный и лабильный к инфекциям, изменению климата и другим факторам окружающей среды.
Таким образом, вы хотите скрестить его с другими видами, которые очень устойчивы к этим оскорблениям.
Затем вы идете в лабораторию и обнаруживаете некоторые гены, которые отвечают за сочный и сладкий вкус одного типа, а также за стойкие способности другого типа.
Вы проводите несколько экспериментов и заканчиваете, скажем, сотнями разных подтипов апельсинов.
Теперь вас интересуют только те подтипы, которые идеально соответствуют описанным свойствам.
Вы не хотите снова проводить такое же исследование в вашем населении ...
Вы знаете свойства, которые ищете в своем идеальном апельсине.
Итак, вы запускаете кластерный анализ и выбираете те, которые лучше всего соответствуют вашим ожиданиям.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.