Сколько измерений нужно уменьшить при выполнении PCA?


12

Как выбрать K для PCA? K - количество измерений, на которое нужно спроецировать. Единственное требование - не терять слишком много информации. Я понимаю, что это зависит от данных, но я больше ищу простой общий обзор о том, какие характеристики следует учитывать при выборе K.


Зависит от допустимой потери данных, а также от постановки задачи!
Dawny33

Я согласен с двумя ответами ниже. Однако знаете ли вы, что существует простой способ количественной оценки потери информации, т. Е. Использование диагонали SVD ковариационной матрицы?
Юйцянь

Ответы:


13

После выполнения алгоритма PCA вы получаете основные компоненты, отсортированные по количеству информации, которую они содержат. Если вы сохраняете весь набор, информация не теряется. Удаляя их один за другим и проецируя их обратно в исходное пространство, вы можете рассчитать потери информации. Вы можете представить эту потерю информации в зависимости от количества удаленных основных компонентов и посмотреть, имеет ли она «колено» там, где это имеет смысл. Многое зависит от вашего варианта использования.


(+1) Да, просто так :)
Dawny33

3

Я обычно проверяю процент информации, содержащейся в значении К. Скажем, из 8 полей, 2 из них содержат 90% информации. Тогда нет смысла включать остальные 6 или 5 полей. Если вы знаете данные MNIST, из 768 входных данных я использовал только 250, что повысило мою точность с 83 до 96%. Факт в том, что больше размерности приносит больше проблем. Так что отрежь их. Я обычно беру только К, который владеет только 90% информации, и это работает для меня.


Привет .. У меня есть похожая проблема, где я хотел бы использовать х% информации и не знаете, как это сделать? Я намерен использовать IPCA, чтобы сделать это, я могу оставить n_components = None, но как мне тогда решить, какие функции имеют x% данных?
Арсенал Фанатик
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.