Допущения кластерного анализа


16

Извиняюсь за рудиментарный вопрос, я новичок в этой форме анализа и до сих пор очень ограниченно понимаю принципы.

Мне просто интересно, применяются ли многие параметрические допущения для многомерных / одномерных тестов для кластерного анализа? Многие источники информации, которые я читал относительно кластерного анализа, не содержат каких-либо предположений.

Я особенно заинтересован в предположении независимости наблюдений. Насколько я понимаю, нарушение этого предположения (например, в ANOVA и MAVOVA) является серьезным, поскольку оно влияет на оценки ошибок. Из моего прочтения до сих пор кажется, что кластерный анализ в значительной степени описательный метод (который включает в себя статистический вывод только в определенных конкретных случаях). Соответственно, требуются ли такие предположения, как независимость и нормально распределенные данные?

Будем весьма благодарны за любые рекомендации текстов, в которых обсуждается этот вопрос. Огромное спасибо.

Ответы:


7

Что ж, методы кластеризации не ограничиваются методами, основанными на расстоянии, где мы ищем группы статистических единиц, которые необычно близки друг к другу в геометрическом смысле. Существует также ряд методов, основанных на плотности (кластеры рассматриваются как «области» в пространстве признаков) или распределении вероятностей. .

Последний случай также известен как кластеризация на основе моделей ; Психометрики используют термин « анализ скрытого профиля» для обозначения этого конкретного случая модели конечной смеси , где мы предполагаем, что совокупность состоит из различных ненаблюдаемых групп или скрытых классов, и что объединенная плотность всех явных переменных является смесью этого класса. удельная плотность. Хорошая реализация доступны в Mclust упаковке или Mplus программного обеспечения. Могут использоваться разные класс-инвариантные ковариационные матрицы (фактически Mclust использует критерий BIC для выбора оптимального критерия при изменении количества кластеров).

Стандартная модель латентного класса также предполагает, что наблюдаемые данные получены из смеси многомерных многочленных распределений. Хороший обзор доступен в Основанном на модели кластерном анализе: Защита , Жилем Селё.

Поскольку эти методы основаны на предположениях о распределении, это также позволяет использовать формальные тесты или индексы соответствия, чтобы принимать решения о количестве кластеров или классов, что остается сложной проблемой в кластерном анализе на основе расстояния, но см. Следующие статьи что обсуждали этот вопрос:

  1. Хэндл Дж., Ноулз Дж. И Келл Д.Б. (2005). Вычислительная проверка кластеров в постгеномном анализе данных. Биоинформатика , 21 (15) , 3201-3212.
  2. Hennig, C. (2007) Кластерная оценка кластерной стабильности. Вычислительная статистика и анализ данных , 52 , 258-271.
  3. Хенниг, C. (2008) Точка растворения и надежность изоляции: критерии устойчивости для общих методов кластерного анализа. Журнал многомерного анализа , 99 , 1154-1176.

3

Существует очень широкое разнообразие методов кластеризации, которые по своей природе являются исследовательскими, и я не думаю, что какой-либо из них, будь то иерархический или основанный на разделах, опирается на те предположения, с которыми приходится сталкиваться при анализе отклонений.

Взглянув на документацию [MV] в Stata, чтобы ответить на ваш вопрос, я нашел эту забавную цитату на странице 85:

Хотя некоторые говорят, что существует столько же методов кластерного анализа, сколько людей проводят кластерный анализ. Это грубое преуменьшение! Существует бесконечно больше способов выполнить кластерный анализ, чем людей, которые их выполняют.

В этом контексте я сомневаюсь, что существуют какие-либо предположения, применимые к методу кластеризации. Остальная часть текста просто устанавливает в качестве общего правила, что для создания кластеров вам нужна какая-то форма «меры отличия», которая даже не должна быть метрическим расстоянием.

Однако есть одно исключение, когда вы группируете наблюдения как часть анализа после оценки. В Stata vceкоманда поставляется со следующим предупреждением на странице 86 того же источника:

Если вы знакомы с большим массивом команд оценки Stata, будьте осторожны, чтобы различать кластерный анализ (команда cluster) и параметр vce (cluster clustvar), допустимый для многих команд оценки. Кластерный анализ находит группы в данных. Опция vce (cluster clustvar), разрешенная для различных команд оценки, указывает на то, что наблюдения независимы от групп, определенных этой опцией, но не обязательно независимы в этих группах. Группирующая переменная, создаваемая командой cluster, редко удовлетворяет предположению об использовании опции vce (cluster clustvar).

Исходя из этого, я бы предположил, что независимые наблюдения не требуются вне этого конкретного случая. Интуитивно я бы добавил, что кластерный анализ может даже использоваться для точной цели исследования степени независимости наблюдений или нет.

В заключение я упомяну , что на странице 356 Статистики со Статой Лоуренс Гамильтон упоминает стандартизированные переменные как «существенный» аспект кластерного анализа, хотя он не углубляется в эту проблему.


2

Пространственный кластерный анализ использует наблюдения с географической привязкой и является подмножеством кластерного анализа, который не ограничивается исследовательским анализом.

Пример 1

Это может быть использовано для создания честных избирательных округов.

Пример 2

Локальные пространственные автокорреляционные меры используются в методе кластеризации AMOEBA . Альдштадт и Гетис используют полученные кластеры для создания матрицы пространственных весов, которая может быть указана в пространственных регрессиях для проверки гипотезы.

См. Aldstadt, Jared and Arthur Getis (2006) «Использование AMOEBA для создания матрицы пространственных весов и идентификации пространственных кластеров». Географический анализ 38 (4) 327-343

Пример 3

Кластерный анализ, основанный на случайно растущих регионах с учетом набора критериев, может быть использован в качестве вероятностного метода для выявления несправедливости при проектировании институциональных зон, таких как зоны посещаемости школ или избирательные округа.


1

Кластерный анализ не предполагает проверки гипотез как таковой, а представляет собой просто набор различных алгоритмов подобия для исследовательского анализа. Вы можете принудительно проверить гипотезы, но результаты часто противоречивы, поскольку изменения в кластере очень чувствительны к изменениям параметров.

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introclus_sect010.htm

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.