Я пытаюсь сделать выбор модели для некоторых кандидатов-предикторов, используя LASSO с непрерывным результатом. Цель состоит в том, чтобы выбрать оптимальную модель с наилучшими показателями прогнозирования, что обычно может быть выполнено путем перекрестной проверки в K-кратном порядке после получения пути решения параметров настройки из LASSO. Проблема здесь заключается в том, что данные взяты из комплексного многоэтапного плана обследования (NHANES) с кластерной выборкой и стратификацией. Оценка части не является сложной, так как glmnet
в R может принимать веса выборки. Но часть перекрестной проверки мне менее понятна, так как наблюдения больше не рассматриваются, и как процедура может учитывать веса выборки, представляющие конечную совокупность?
Итак, мои вопросы:
1) Как выполнить перекрестную проверку K-кратных данных со сложными данными обследования, чтобы выбрать оптимальный параметр настройки? В частности, как правильно разделить выборочные данные на обучающие и проверочные наборы? А как определить оценку ошибки прогноза?
2) Есть ли альтернативный способ выбора оптимального параметра настройки?