У меня есть пара быстрых вопросов о PCA:
- Предполагает ли PCA, что набор данных является гауссовским?
- Что происходит, когда я применяю PCA к нелинейным данным?
Учитывая набор данных, процесс должен сначала нормализовать среднее значение, установить дисперсию 1, взять SVD, уменьшить ранг и, наконец, отобразить набор данных в новое пространство с пониженным рангом. В новом пространстве каждое измерение соответствует «направлению» максимальной дисперсии.
- Но всегда ли корреляция этого набора данных в новом пространстве равна нулю, или это верно только для данных, которые по своей природе гауссовы?
Предположим, у меня есть два набора данных, «A» и «B», где «A» соответствует случайно выбранным точкам, взятым из гауссиана, а «B» соответствует точкам, случайно выбранным из другого распределения (скажем, по Пуассону).
- Как PCA (A) сравнивается с PCA (B)?
- Посмотрев на точки в новом пространстве, как бы я определил, что PCA (A) соответствует точкам, отобранным из гауссиана, а PCA (B) соответствует точкам, отобранным из Пуассона?
- Является ли соотношение точек в «А» 0?
- Корреляция точек в "B" также 0?
- Что еще более важно, я задаю «правильный» вопрос?
- Должен ли я посмотреть на корреляцию, или есть другая метрика, которую я должен рассмотреть?