Насколько я понимаю, с помощью перекрестной проверки и выбора модели мы пытаемся решить две проблемы:
P1 . Оцените ожидаемую потерю населения при обучении с нашей выборкой
P2 . Измерьте и сообщите нашу неопределенность этой оценки (дисперсия, доверительные интервалы, отклонения и т. Д.)
Стандартная практика, как представляется, заключается в проведении повторной перекрестной проверки, поскольку это уменьшает дисперсию нашей оценки.
Однако, когда дело доходит до отчетности и анализа, я понимаю, что внутренняя проверка лучше, чем внешняя проверка, потому что:
Лучше сообщить:
- Статистика нашего оценщика, например, его доверительный интервал, дисперсия, среднее и т. Д. Для полной выборки (в данном случае выборка CV).
чем отчетность:
Потеря нашей оценки на удерживающем подмножестве исходного образца, так как:
(i) Это будет одно измерение ( даже если мы выберем нашу оценку с CV )
(ii) Наш оценщик для этого отдельного измерения был бы обучен на наборе (например, наборе CV), который меньше, чем наш начальный образец, так как мы должны освободить место для набора удержания. Это приводит к более смещенной (пессимистичной) оценке в P1 .
Это верно? Если нет, то почему?
Задний план:
Легко найти учебники, которые рекомендуют разделить ваш образец на два набора:
- Набор CV , который впоследствии и многократно делится на наборы обучения и проверки .
- Удерживающий из (теста) набор, используется только в конце , чтобы сообщить об эффективности оценивания
Мой вопрос - попытка понять достоинства и преимущества этого учебного подхода, учитывая, что наша цель - действительно решить проблемы P1 и P2 в начале этого поста. Мне кажется, что составление отчетов о тесте на вынос - плохая практика, так как анализ образца резюме более информативен.
Вложенный K-сгиб против повторного K-сгиба:
В принципе можно объединить удержание с обычным K-сгибом, чтобы получить вложенный K-сгиб . Это позволило бы нам измерить изменчивость нашей оценки, но мне кажется, что для того же числа всех обученных моделей (общее количество сгибов) повторное K-кратное вычисление даст оценки, которые менее смещены и более точны, чем вложенные K- фолд. Чтобы увидеть это:
- Повторный K-кратный использует большую долю нашей общей выборки, чем вложенный K-кратный для того же K (т.е. это приводит к более низкому смещению)
- 100 итераций дадут только 10 измерений нашей оценки во вложенном K-кратном (K = 10), но 100 измерений в K-кратном (чем больше измерений, тем меньше дисперсия в P2 )
Что не так с этим рассуждением?