У меня есть набор данных с дискретными (порядковыми, меристическими и номинальными) переменными, описывающими морфологические признаки крыла нескольких близкородственных видов насекомых. То, что я хочу сделать, - это провести какой-то анализ, который бы дал мне визуальное представление о сходстве разных видов на основе морфологических характеристик. Первой вещью, которая пришла мне в голову, был PCA (это тип визуализации, который я собираюсь создать), но после изучения этого (особенно других вопросов, таких как: Можно ли применять анализ основных компонентов к наборам данных, содержащим смесь непрерывных а категориальные переменные?), кажется, что PCA может быть неподходящим для дискретных данных (PCA используется в этих типах исследований в литературе, но всегда с непрерывными данными). Игнорируя статистический фон того, почему эти данные неуместны, PCA дает мне относительно прекрасные результаты в отношении моего биологического вопроса (представляющие интерес гибридные группы попадают прямо в середину их отцовских групп).
Я также пробовал многократный анализ корреспонденции, чтобы успокоить статистику (по крайней мере, насколько мне известно), но я не могу получить график, аналогичный тому, который я получил бы с PCA, где мои наблюдения (биологические индивидуумы) разделены, скажем, цветом, чтобы показать разные группировки (разные виды, биологически). Похоже, что этот анализ направлен на описание того, как переменные (здесь мои морфологические характеристики) связаны друг с другом, а не с отдельными наблюдениями. И когда я строю наблюдения, раскрашенные по группам, я получаю только одно значение (возможно, среднее), описывающее весь набор людей. Я провел анализ в R, так что, возможно, я просто недостаточно разбираюсь в R, чтобы реализовать свое представление о сюжете.
Правильно ли я пытаюсь провести такой анализ с моими данными или я не в порядке? Если вы не могли бы сказать, мой статистический опыт ограничен, поэтому уравнения, возникающие под этими анализами, находятся у меня над головой. Я пытаюсь провести этот анализ полностью описательно (мне не нужно больше обрабатывать номера вниз по течению), и я прочитал, что если это так, PCA будет достаточно, но хочу убедиться, что я не нарушая слишком много статистических предположений.