PCA работает со значениями, где CA работает с относительными значениями. Оба подходят для данных относительного обилия того типа, который вы упомянули (с одним важным предупреждением, см. Позже). С% данных у вас уже есть относительный показатель, но все равно будут различия. Спроси себя
- Вы хотите подчеркнуть закономерность в обильных видах / таксонах (т.е. в тех, которые имеют большой% покрытия), или
- Вы хотите сосредоточиться на закономерностях относительного состава?
Если первое, используйте PCA. Если последний использует CA. Что я имею в виду под этими двумя вопросами, вы бы хотели
A = {50, 20, 10}
B = { 5, 2, 1}
считаться другим или одинаковым? A
и B
представляют собой две выборки, а значения представляют собой% покрытия трех показанных таксонов. (Этот пример получился плохим, предположим, что есть пустая земля! ;-) PCA посчитал бы их очень разными из-за используемого евклидова расстояния, но CA посчитал бы, что эти две выборки очень похожи, потому что имеют одинаковый относительный профиль.
Большое предостережение - закрытая композиционная природа данных. Если у вас есть несколько групп (например, Sand, Silt, Clay) с суммой 1 (100%), то ни один из подходов не является правильным, и вы можете перейти к более подходящему анализу с помощью логарифмического коэффициента Aitchison PCA, который был разработан для закрытых композиционных композиций. данные. (Для этого IIRC необходимо центрировать по строкам и столбцам и преобразовывать данные в журнал.) Есть и другие подходы. Если вы используете R, то одна книга , которая будет полезна в анализе Композиционный данных с R .