Я столкнулся со сценарием, где у меня есть 10 сигналов на человека на 10 человек (таким образом, 100 выборок), содержащих 14000 точек данных (измерений), которые мне нужно передать в классификатор. Я хотел бы уменьшить размерность этих данных, и PCA, кажется, является способом сделать это. Тем не менее, мне удалось найти только примеры PCA, где количество образцов больше, чем количество измерений. Я использую приложение PCA, которое находит ПК с помощью SVD. Когда я передаю свой набор данных 100x14000, возвращается 101 ПК, поэтому подавляющее большинство измерений, очевидно, игнорируется. Программа указывает, что первые 6 ПК содержат 90% дисперсии.
Разумно ли предположить, что эти 101 ПК содержат практически все отклонения, а оставшиеся размеры пренебрежимо малы?
В одной из прочитанных мной статей утверждается, что, используя аналогичный (хотя и несколько более низкого качества) набор данных, чем мой, они смогли сократить 4500 измерений до 80, сохранив 96% исходной информации. Бумажные ручные волны по деталям использованного метода PCA, было доступно только 3100 образцов, и у меня есть основания полагать, что меньше образцов, чем было использовано для фактического выполнения PCA (чтобы устранить смещение из фазы классификации).
Я что-то упустил или это действительно способ использования PCA с набором данных с высокой размерностью и малым размером выборки? Любая обратная связь будет принята с благодарностью.