Данные об арестах в США, связанные с R, являются лишь примером здесь, но я отмечаю, что расчеты нагрузок в вопросе происходят из PCA ковариационной матрицы . Это где-то между произвольным и бессмысленным, поскольку переменные измеряются в разных масштабах.
Городское население выглядит как процент. Калифорния составляет 91% и выше.
Три криминальных переменных, как представляется, представляют собой число арестов за преступления, выраженные по отношению к численности населения (предположительно, в течение некоторого периода времени). Предположительно это где-то задокументировано, будь то аресты на 1000, 10000 или что-то еще.
Среднее значение переменной нападения в данных единицах составляет около 171, а среднее убийство - около 8. Таким образом, объяснение ваших нагрузок состоит в том, что в значительной степени шаблон является артефактом: он зависит от очень различной изменчивости переменных.
Таким образом, хотя в данных есть смысл в том, что арестов за нападения гораздо больше, чем за убийства и т. Д., Этот известный (или неудивительный) факт доминирует в анализе.
Это показывает, что, как и везде в статистике, вы должны думать о том, что вы делаете на PCA.
Если вы берете это дальше:
Я бы сказал, что процент городского населения лучше оставить вне анализа. Быть городским - не преступление; это, конечно, может служить прокси для переменных, влияющих на преступность.
На мой взгляд, PCA, основанный на корреляционной матрице, имеет больше смысла. Другая возможность - работать с логарифмами числа арестов, а не с числом арестов (все значения положительные; см. Ниже).
Примечание. В ответе @ random_guy сознательно используется ковариационная матрица.
Вот некоторая сводная статистика. Я использовал Stata, но это совершенно несущественно.
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
urban_pop | 50 65.54 14.47476 32 91
murder | 50 7.788 4.35551 .8 17.4
rape | 50 21.232 9.366384 7.3 46
assault | 50 170.76 83.33766 45 337