У меня есть набор данных с 11 переменными и PCA (ортогональный) был сделан для сокращения данных. Принимая решение о количестве компонентов для сохранения, для меня было очевидно, что по моим знаниям о предмете и графике осыпей (см. Ниже) двух основных компонентов (ПК) было достаточно, чтобы объяснить данные, а остальные компоненты были только менее информативными.
График осыпания с параллельным анализом: наблюдаемые собственные значения (зеленый) и моделируемые собственные значения на основе 100 симуляций (красный). График Scree предлагает 3 ПК, тогда как параллельный тест предполагает только первые два ПК.
Как вы видите, только 48% дисперсии могут быть зафиксированы первыми двумя ПК.
Наблюдения за графиком на первой плоскости, выполненные первыми двумя ПК, выявили три разных кластера с использованием иерархической агломерационной кластеризации (HAC) и K-средних. Эти 3 кластера оказались очень актуальными для рассматриваемой проблемы и были совместимы с другими выводами. Таким образом, за исключением того факта, что только 48% дисперсии было зафиксировано, все остальное было в порядке.
Один из моих двух рецензентов сказал: нельзя полагаться на эти результаты, так как можно объяснить только 48% отклонений, и это меньше, чем требуется.
Вопрос Требуется
ли какое-либо значение того, сколько отклонений должно быть зафиксировано PCA, чтобы быть действительным? Разве это не зависит от знания предметной области и используемой методологии? Кто-нибудь может судить о достоинствах всего анализа, основанного только на простом значении объясненной дисперсии?
Примечания
- Данные представляют собой 11 переменных генов, измеренных с помощью очень чувствительной методологии в молекулярной биологии, называемой количественной полимеразной цепной реакцией в реальном времени (RT-qPCR).
- Анализы были сделаны с использованием R.
- Ответы аналитиков данных, основанные на их личном опыте работы с реальными проблемами в области анализа микрочипов, хемометрии, спектрометрического анализа или тому подобного, очень ценятся.
- Пожалуйста, рассмотрите возможность поддержки вашего ответа с ссылками как можно больше.