Я не видел лекцию, поэтому не могу комментировать сказанное.
Мои 0,02 доллара: если вы хотите получить хорошие оценки производительности с помощью повторной выборки, вам действительно следует выполнять все операции во время повторной выборки вместо предыдущей. Это действительно верно для выбора функций [1], а также для нетривиальных операций, таких как PCA. Если это добавляет неопределенности к результатам, включите его в повторную выборку.
Подумайте о регрессии основного компонента: PCA, за которым следует линейная регрессия некоторых компонентов. PCA оценивает параметры (с шумом) и количество компонентов также должны быть выбраны (разные значения приведут к разным результатам => больше шума).
Скажем, мы использовали 10-кратное резюме со схемой 1:
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
или схема 2:
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
Должно быть понятно, что второй подход должен давать оценки ошибок, которые отражают неопределенность, вызванную PCA, выбором количества компонентов и линейной регрессией. По сути, резюме в первой схеме не имеет представления о том, что ему предшествовало.
Я виновен в том, что не всегда выполняю все операции с повторной выборкой, но только тогда, когда меня не интересуют оценки производительности (что необычно).
Есть ли большая разница между этими двумя схемами? Это зависит от данных и предварительной обработки. Если вы только центрируете и масштабируете, вероятно, нет. Если у вас есть тонна данных, вероятно, нет. По мере уменьшения размера обучающего набора риск получения неверных оценок возрастает, особенно если n близко к p.
По опыту могу с уверенностью сказать, что не включать выбор контролируемых функций в повторную выборку - это действительно плохая идея (без больших тренировочных наборов). Я не понимаю, почему предварительная обработка была бы защищена от этого (до некоторой степени).
@mchangun: Я думаю, что количество компонентов является параметром настройки, и вы, вероятно, захотите выбрать его, используя оценки производительности, которые можно обобщить. Вы можете автоматически выбрать K так, чтобы было объяснено как минимум X% дисперсии, и включить этот процесс в повторную выборку, чтобы мы учитывали шум в этом процессе.
Максимум
[1] Ambroise, C. & McLachlan, G. (2002). Смещение отбора при экстракции генов на основе данных по экспрессии генов микрочипов. Труды Национальной академии наук, 99 (10), 6562–6566.