Take-домой-сообщений:
К сожалению, текст, который вы цитируете, меняет две вещи между подходом 1 и 2:
- Подход 2 выполняет перекрестную проверку и выбор / настройку / оптимизацию модели на основе данных
- Подход 1 не использует перекрестную проверку, а также выбор / настройку / оптимизацию модели на основе данных.
- Подход 3 перекрестной проверки без выбора, настройки / оптимизации модели на основе данных вполне возможен (и IMHO приведет к большему пониманию) в контексте, обсуждаемом здесь
- Подход 4, перекрестная проверка не возможна, но выбор / настройка / оптимизация модели на основе данных также возможны, но более сложны для построения.
ИМХО, перекрестная проверка и оптимизация на основе данных - это два совершенно разных (и в значительной степени независимых) решения при настройке стратегии моделирования. Только соединение является то , что вы можете использовать оценки кросс - проверки в качестве целевого функционала для оптимизации. Но существуют и другие целевые функционалы, готовые к использованию, и существуют другие способы использования перекрестных проверок (важно, что вы можете использовать их для проверки вашей модели, так называемой проверки или тестирования).
К сожалению, терминология машинного обучения ИМХО в настоящее время путаница, которая предлагает ложные связи / причины / зависимости здесь.
Когда вы посмотрите на подход 3 (перекрестная проверка не для оптимизации, а для измерения производительности модели), вы обнаружите, что перекрестная проверка «решение» в сравнении с обучением для всего набора данных является ложной дихотомией в этом контексте: при использовании перекрестной проверки для измерения эффективности классификатора, показатель качества перекрестной проверки используется в качестве оценки для модели, обученной на всем наборе данных. Т.е. подход 3 включает в себя подход 1.
Теперь давайте посмотрим на 2-е решение: оптимизация модели на основе данных или нет. Это ИМХО решающий момент здесь. И да, есть ситуации реального мира, когда лучше не проводить оптимизацию моделей на основе данных. Оптимизация данных на основе данных происходит за плату. Вы можете думать об этом так: информация в наборе данных используется для оценки не толькоpпараметры / коэффициенты модели, но оптимизация делает оценку других параметров, так называемых гиперпараметров. Если вы описываете процесс подбора и оптимизации / настройки модели как поиск параметров модели, то эта оптимизация гиперпараметра означает, что рассматривается значительно большее пространство поиска. Другими словами, в подходе 1 (и 3) вы ограничиваете пространство поиска, указывая эти гиперпараметры. Ваш набор данных реального мира может быть достаточно большим (содержать достаточно информации), чтобы позволить вписаться в это ограниченное пространство поиска, но недостаточно большим, чтобы достаточно хорошо фиксировать все параметры в большем пространстве поиска подходов 2 (и 4).
Фактически, в моей области мне очень часто приходится иметь дело с наборами данных, которые слишком малы, чтобы можно было подумать об оптимизации на основе данных. Итак, что мне делать вместо этого: я использую свои знания предметной области о данных и процессах генерирования данных, чтобы решить, какая модель лучше соответствует физической природе данных и приложения. И в этих рамках мне все еще приходится ограничивать сложность моей модели.