Я предполагаю, что часть этого вопроса заключается в том, существуют ли другие метрики, кроме кумулятивной процентной дисперсии (CPV) и аналогичного подхода к осыпному графику. Ответ на это, да, многие .
Отличная статья о некоторых опциях - Valle 1999:
Это касается как CPV, так и параллельного анализа, перекрестной проверки, дисперсии ошибки восстановления (VRE), методов, основанных на информационных критериях, и многого другого. Вы можете следовать рекомендациям, сделанным в статье после сравнения и использования VRE, но перекрестная проверка на основе PRESS также хорошо работает по моему опыту, и они также дают хорошие результаты. По моему опыту, CPV удобен и прост, и делает достойную работу, но эти два метода обычно лучше.
Есть и другие способы оценить, насколько хороша ваша модель PCA, если вы знаете больше о данных. Одним из способов является сравнение предполагаемых нагрузок PCA с истинными, если вы их знаете (что вы и сделали бы при моделировании). Это можно сделать, рассчитав смещение предполагаемых нагрузок к истинным. Чем больше ваш уклон, тем хуже ваша модель. Чтобы узнать, как это сделать, вы можете обратиться к этой статье, где они используют этот подход для сравнения методов. Однако его нельзя использовать в реальных случаях, когда вы не знаете истинных загрузок PCA. Это говорит не столько о том, сколько компонентов вы удалили, сколько о смещении вашей модели из-за влияния отдаленных наблюдений, но все же служит метрикой качества модели.