Каковы хорошие показатели для оценки качества соответствия PCA, чтобы выбрать количество компонентов?

10

Что является хорошим показателем для оценки качества анализа главных компонентов (PCA)?

Я выполнил этот алгоритм на наборе данных. Моей целью было уменьшить количество функций (информация была очень избыточной). Я знаю, что процент сохраняемой дисперсии является хорошим показателем того, сколько информации мы храним, есть ли другие информационные метрики, которые я могу использовать, чтобы убедиться, что я удалил избыточную информацию и не «потерял» такую информацию?

— большое дерево
источник

3

Строго говоря, нет никакой «избыточной» информации, если только ваши исходные данные не были совершенно коллинеарны. Обычно видно процент сохраняющейся дисперсии («мы использовали первые пять основных компонентов, которые составляли 90% дисперсии»). Мне интересно видеть альтернативы.

— Стефан Коласса

Поскольку один из ваших тегов является теорией информации: косвенный способ оценки того, работает ли PCA, состоит в проверке допущений, согласно которым теория информации говорит нам, что у него низкая потеря информации при данном уменьшении размера. Вики говорят, что это так, когда ваши данные представляют собой сумму гауссовского сигнала плюс гауссов шум. en.wikipedia.org/wiki/…

— CloseToC

17

Я предполагаю, что часть этого вопроса заключается в том, существуют ли другие метрики, кроме кумулятивной процентной дисперсии (CPV) и аналогичного подхода к осыпному графику. Ответ на это, да, многие .

Отличная статья о некоторых опциях - Valle 1999:

Выбор количества основных компонентов: дисперсия критерия ошибки реконструкции и сравнение с другими методами

Серхио Валле, Вейхуа Ли, и С. Джо Цинь, Исследования в области промышленной и технической химии, 1999 г. 38 (11), 4389-4401

Это касается как CPV, так и параллельного анализа, перекрестной проверки, дисперсии ошибки восстановления (VRE), методов, основанных на информационных критериях, и многого другого. Вы можете следовать рекомендациям, сделанным в статье после сравнения и использования VRE, но перекрестная проверка на основе PRESS также хорошо работает по моему опыту, и они также дают хорошие результаты. По моему опыту, CPV удобен и прост, и делает достойную работу, но эти два метода обычно лучше.

Есть и другие способы оценить, насколько хороша ваша модель PCA, если вы знаете больше о данных. Одним из способов является сравнение предполагаемых нагрузок PCA с истинными, если вы их знаете (что вы и сделали бы при моделировании). Это можно сделать, рассчитав смещение предполагаемых нагрузок к истинным. Чем больше ваш уклон, тем хуже ваша модель. Чтобы узнать, как это сделать, вы можете обратиться к этой статье, где они используют этот подход для сравнения методов. Однако его нельзя использовать в реальных случаях, когда вы не знаете истинных загрузок PCA. Это говорит не столько о том, сколько компонентов вы удалили, сколько о смещении вашей модели из-за влияния отдаленных наблюдений, но все же служит метрикой качества модели.

— Deathkill14
источник

4

Ссылка на бумагу Валле, Ли и Цинь

— Жубарб,

3

Есть также меры, основанные на теоретико-информационных критериях, как

MDL Риссанена (и варианты)

— Никос М.
источник

@user: 45382 Да, это еще один. Об этом также говорится в статье, на которую ссылается Жубарб.

— Deathkill14

@ Deathkill14 правильно я прочитал статью, упомянуты теоретико-информационные меры (на самом деле, как хорошие альтернативы)

— Никос М.

Отличная теоретическая статья о MDL, MML и байесианстве: Витани и Ли, идеальный MDL и его связь с байесианством citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 . Также другие методы выбора модели, такие как AIC и BIC, являются эффективной реализацией MDL.

— GGLL