Примечание: регистр n >> p
Я читаю Элементы статистического обучения, и есть различные упоминания о «правильном» способе перекрестной проверки (например, стр. 60, стр. 245). В частности, мой вопрос заключается в том, как оценить итоговую модель (без отдельного набора тестов) с использованием k-кратного CV или начальной загрузки, когда был поиск модели? Похоже, что в большинстве случаев (алгоритмы ML без выбора встроенной функции)
- Шаг выбора функции
- Шаг выбора метапараметра (например, параметр стоимости в SVM).
Мои вопросы:
- Я видел, что шаг выбора функции может быть сделан, когда выбор функции сделан на всем обучающем наборе и отложен в сторону. Затем, используя k-кратное CV, алгоритм выбора признаков используется в каждом сгибе (возможно, каждый раз выбираются разные функции), и ошибка усредняется. Затем вы должны использовать выбранные функции, используя все данные (которые были выделены), для обучения окончательного режима, но использовать ошибку перекрестной проверки в качестве оценки будущей производительности модели. ЭТО ВЕРНО?
- Когда вы используете перекрестную проверку для выбора параметров модели, как тогда оценить производительность модели? Это тот же процесс, как № 1 выше или вы должны использовать вложенное резюме, как показано на странице 54 ( pdf ) или что-то еще?
- Когда вы делаете оба шага (настройка функций и параметров) ..... тогда что вы делаете? сложные вложенные циклы?
- Если у вас есть отдельная выборка задержки, исчезнет ли проблема, и вы сможете использовать перекрестную проверку для выбора функций и параметров (без беспокойства, поскольку ваша оценка производительности будет получена из набора задержки)?