Часто говорят, что нет другого аналитического метода, столь же сильного, как «как посеешь, то и скажешь», как кластерный анализ.
Я могу представить себе ряд измерений или аспектов «правильности» того или иного метода кластеризации :
Кластерная метафора . «Я предпочел этот метод, потому что он представляет собой кластеры, такие (или такие), которые соответствуют моей концепции кластера в моем конкретном проекте» . Каждый алгоритм или подалгоритм / метод кластеризации подразумевает свою соответствующую структуру / структуру / форму кластера. Что касается иерархических методов, я наблюдал это в одном из пунктов здесь , а также здесь, Т.е. некоторые методы дают кластеры, которые являются прототипами "типов", другие дают "круги [по интересам]", еще другие "[политические] платформы", "классы", "цепочки" и т. Д. Выберите тот метод, метафора кластера которого вам подходит. Например, если я рассматриваю свои сегменты клиентов как типы - более или менее сферические фигуры с уплотнением (ями) посередине, я выберу метод связи Уорда или К-среднее, но, разумеется, никогда не использую метод одиночной связи. Если мне нужен фокусный представитель, я мог бы использовать метод Medoid. Если мне нужно отобрать точки, чтобы они были представителями ядра и периферии, я мог бы использовать подход DBSCAN.
Данные / метод предположения . «Я предпочел этот метод, потому что моя природа данных или формат предрасполагают к нему» . Этот важный и обширный момент также упоминается в моей ссылке выше. Разные алгоритмы / методы могут требовать различного вида данных для них или разных мер близости, которые должны применяться к данным, и наоборот, разные данные могут требовать разных методов. Существуют методы количественных и методы качественных данных. Смесь количественных + качественных характеристик резко сужает область выбора среди методов. Уорд или К-значитоснованы - явно или неявно - только на (квадратичной) евклидовой дистанционной мере, а не на произвольной мере. Двоичные данные могут требовать специальных мер сходства, которые, в свою очередь, будут подвергать сомнению использование некоторых методов, например, методов Уорда или К-средних. Большие данные могут нуждаться в специальных алгоритмах или специальных реализациях.
Внутренняя действительность . «Я предпочел этот метод, потому что он дал мне наиболее четкие, плотные и изолированные кластеры» . Выберите алгоритм / метод, который показывает лучшие результаты для ваших данных с этой точки зрения. Чем плотнее и плотнее кластеры внутри и чем меньше плотность снаружи (или чем шире кластеры), тем больше внутренняя валидность. Выберите и используйте соответствующие внутренние критерии кластеризации ( которых достаточно - Calinski-Harabasz, Silhouette и т. Д. И т. Д .; иногда также называемые «правилами остановки») для его оценки. [Остерегайтесь переобучения: все методы кластеризации стремятся максимизировать некоторую версию внутренней валидности (это то , что кластеризация является1о), поэтому высокая достоверность может быть отчасти обусловлена случайной особенностью данного набора данных; наличие тестового набора данных всегда полезно.]
Внешняя валидность . «Я предпочел этот метод, потому что он дал мне кластеры, которые отличаются по своему фону или кластеры, которые соответствуют истинным, которые я знаю» . Если кластеризованный раздел представляет кластеры, которые явно отличаются по некоторым важным фоновым (то есть не участвовавшим в кластерном анализе) характеристикам, то это актив для того метода, который создал раздел. Используйте любой анализ, который применяется, чтобы проверить разницу; также существует ряд полезных внешних критериев кластеризации(Рэнд, F-мера и т. Д. И т. Д.). Другой вариант внешней проверки - это когда вы каким-то образом знаете истинные кластеры в ваших данных (знаете «основную правду»), например, когда вы сами генерировали кластеры. То, насколько точно ваш метод кластеризации способен обнаружить реальные кластеры, является мерой внешней валидности.
Перекрестная достоверность . «Я предпочел этот метод, потому что он дает мне очень похожие кластеры на эквивалентных выборках данных или хорошо экстраполирует на такие выборки» . Существуют различные подходы и их гибриды, некоторые из которых более приемлемы для одних методов кластеризации, а другие - для других методов. Два основных подхода - проверка стабильности и обобщаемостьчек. Проверяя стабильность метода кластеризации, можно случайным образом разбить или повторно выбрать данные в частично пересекающихся или полностью непересекающихся наборах и выполнить кластеризацию для каждого из них; затем сопоставляет и сравнивает решения с некоторой возникающей характеристикой кластера (например, центральное местоположение кластера), является ли она стабильной по наборам. Проверка универсальности подразумевает выполнение кластеризации в наборе поездов, а затем использование его возникающей характеристики или правила кластера для назначения объектов набора тестов, а также выполнение кластеризации в наборе тестов. Затем сравниваются принадлежащие кластеру результаты присваивания и результаты кластеризации объектов тестового набора.
Интерпретация . «Я предпочел этот метод, потому что он дал мне кластеры, которые, как объяснили, являются наиболее убедительными, что есть смысл в мире» . Это не статистически - это ваша психологическая проверка. Насколько значимы результаты для вас, домена и, возможно, аудитории / клиента. Выберите метод, дающий наиболее интерпретируемые, пряные результаты.
Стадность . Некоторые исследования регулярно и все исследования иногда говорят: «Я предпочел этот метод, потому что он дал с моими данными аналогичные результаты с рядом других методов среди всех, кого я исследовал» . Это эвристическая, но сомнительная стратегия, предполагающая, что существуют достаточно универсальные данные или совершенно универсальный метод.
Пункты 1 и 2 являются теоретическими и предшествуют получению результата; Исключительно полагаться на эти моменты является надменной, уверенной в себе исследовательской стратегии. Пункты 3, 4 и 5 являются эмпирическими и следуют за результатом; Исключительно полагаться на эти моменты - это непосильная, испытательная стратегия. Пункт 6 является творческим, что означает, что он отрицает любой результат, чтобы попытаться повторно его оправдать. Пункт 7 - верный фаворит.