У меня есть набор данных, для которого у меня есть несколько наборов двоичных меток. Для каждого набора меток я обучаю классификатор, оценивая его путем перекрестной проверки. Я хочу уменьшить размерность, используя анализ основных компонентов (PCA). Мой вопрос:
Можно ли сделать PCA один раз для всего набора данных, а затем использовать новый набор данных с более низкой размерностью для перекрестной проверки, как описано выше? Или мне нужно сделать отдельный PCA для каждого учебного набора (что будет означать создание отдельного PCA для каждого классификатора и для каждой перекрестной проверки)?
С одной стороны, PCA не использует метки. С другой стороны, он использует тестовые данные для преобразования, поэтому я боюсь, что это может повлиять на результаты.
Я должен отметить, что в дополнение к экономии моей работы, выполнение PCA один раз для всего набора данных позволило бы мне визуализировать набор данных для всех наборов меток одновременно. Если у меня есть разные PCA для каждого набора этикеток, мне нужно было бы визуализировать каждый набор этикеток отдельно.
caret
пакетом: PCA и перекрестную валидацию в k-кратном порядке в Caret .