Кластерный анализ с последующим дискриминантным анализом


10

Каково обоснование, если таковое имеется, использования Дискриминантного анализа (DA) на результатах алгоритма кластеризации, такого как k-средних, как я вижу это время от времени в литературе (по существу, о клинических подтипах психических расстройств)?

Как правило, не рекомендуется проверять групповые различия по переменным, которые использовались во время построения кластера, поскольку они поддерживают максимизацию (соответственно минимизацию) инерции между классами (соответственно внутри класса). Таким образом, я не уверен, что в полной мере оценю добавленную стоимость прогностического DA, если только мы не попытаемся встроить индивидов в факториальное пространство более низкого измерения и получить представление о «обобщенности» такого разбиения. Но даже в этом случае кластерный анализ остается принципиально исследовательским инструментом, поэтому использование членства в классе, рассчитанного таким образом для дальнейшего получения правила подсчета очков, на первый взгляд кажется странным.

Любые рекомендации, идеи или указатели на соответствующие документы?


Вот объяснение и пример использования R: cran.r-project.org/web/packages/adegenet/vignettes/…
Бен

Ответы:


5

Я не знаю ни одной статьи по этому вопросу. Я использовал этот подход в описательных целях. DFA предоставляет хороший способ суммировать групповые различия и размерность по отношению к исходным переменным. Можно было бы проще просто профилировать группы по исходным переменным, однако это теряет многомерный характер проблемы кластеризации. DFA позволяет вам описывать группы, сохраняя при этом многомерный характер проблемы. Таким образом, это может помочь с интерпретацией кластеров, где это является целью. Это особенно идеально, когда существует тесная связь между вашим методом кластеризации и вашим методом классификации - например, DFA и методом Уорда.

Вы правы насчет проблемы тестирования. Я опубликовал статью, в которой использовал анализ кластеров с последующим анализом DFA для описания решения кластеризации. Я представил результаты DFA без статистики теста. Рецензент не согласился с этим. Я признал и поместил тестовую статистику и значения p туда с оговоркой, что эти значения p не следует интерпретировать традиционным способом.


Каковы будут процедурные шаги DA после кластеризации? Можете ли вы придумать другие методы, чтобы выяснить, какие исходные переменные делают определенный кластер отличным от других?
danas.zuokas

Хотите поделиться цитатой к этой статье, Бретт?
Роман Луштрик

Weissman & Magill. 2008. «Разработка типологии студента для изучения эффективности семинаров первого года» журнала «Опыт первого года и студенты в переходный период» 20 (2). Свяжитесь со мной в автономном режиме, если вы хотите, чтобы печатная копия.
Бретт
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.