Когда не использовать перекрестную проверку?

Когда я читаю сайт, большинство ответов показывают, что перекрестная проверка должна выполняться в алгоритмах машинного обучения. Однако, когда я читал книгу «Понимание машинного обучения», я увидел, что есть упражнение, в котором иногда лучше не использовать перекрестную проверку. Я действительно смущен. Когда алгоритм обучения на всех данных лучше, чем перекрестная проверка? Это происходит в реальных наборах данных?

Пусть - k классов гипотез. Предположим , вы получаете IID подготовки примеров , и вы хотели бы узнать класс . Рассмотрим два альтернативных подхода: $H_1,...,H_k$ $m$ $H=\cup^k_{i=1}H_i$

Изучите на примерах, используя правило ERM $H$ $m$

Разделите m примеров на обучающий набор размером и проверочный набор размера для некоторого . Затем примените подход выбора модели с использованием валидации. Таким образом, сначала обучите каждый класс на обучающих примерах, используя правило ERM относительно , и пусть будут результирующими гипотезами , Во-вторых, примените правило ERM в отношении конечного класса { } в примерах проверки . $(1−\alpha)m$ $\alpha m$ $\alpha\in(0,1)$ $H_i$ $(1−\alpha)m$ $H_i$ $\hat{h}_1,\ldots,\hat{h}_k$ $\hat{h}_1,\ldots,\hat{h}_k$ $\alpha m$

Опишите сценарии, в которых первый метод лучше, чем второй, и наоборот.

Изображение вопроса .

machine-learning self-study cross-validation

— SMA.D
источник

Это интересное упражнение, но я не согласен с лейблом. Я думаю, что перекрестная проверка отлично справляется со своей задачей. В качестве тангенциального было бы действительно лучше, если бы вы напечатали упражнение и процитировали его, а не прикрепляли изображение. Изображение недоступно для пользователей с нарушениями зрения.

— Мэтью Друри

Одним из возможных недостатков использования перекрестной проверки может быть чрезмерная подгонка (как в случае пропуска одной перекрестной проверки). По сути, используя методы перекрестной проверки, мы настраиваем параметры модели для набора данных проверки (а не для набора тестовых данных). Но иногда эта настройка может оказаться слишком сложной, что приведет к возможному переизбранию при тестировании классификатора на тестовом наборе.

— Упендра Пратап Сингх

Что здесь означает «паритет»?

— Shadowtalker

@shadowtalker Я думаю, что это означает суммирование по модулю 2.

— SMA.D

Различаете ли вы (повторную) перекрестную проверку и начальную загрузку?

— usεr11852

Take-домой-сообщений:

Упражнение должно научить вас, что иногда (в зависимости от вашей области: часто или даже почти всегда) лучше не выполнять оптимизацию / настройку / выбор модели на основе данных.
Существуют также ситуации, когда перекрестная проверка не является наилучшим выбором среди различных вариантов проверки , но эти соображения не имеют значения в контексте вашего упражнения здесь.
И не проверка (проверка, тестирование) вашей модели никогда не будет хорошим выбором.

К сожалению, текст, который вы цитируете, меняет две вещи между подходом 1 и 2:

Подход 2 выполняет перекрестную проверку и выбор / настройку / оптимизацию модели на основе данных
Подход 1 не использует перекрестную проверку, а также выбор / настройку / оптимизацию модели на основе данных.
Подход 3 перекрестной проверки без выбора, настройки / оптимизации модели на основе данных вполне возможен (и IMHO приведет к большему пониманию) в контексте, обсуждаемом здесь
Подход 4, перекрестная проверка не возможна, но выбор / настройка / оптимизация модели на основе данных также возможны, но более сложны для построения.

ИМХО, перекрестная проверка и оптимизация на основе данных - это два совершенно разных (и в значительной степени независимых) решения при настройке стратегии моделирования. Только соединение является то , что вы можете использовать оценки кросс - проверки в качестве целевого функционала для оптимизации. Но существуют и другие целевые функционалы, готовые к использованию, и существуют другие способы использования перекрестных проверок (важно, что вы можете использовать их для проверки вашей модели, так называемой проверки или тестирования).

К сожалению, терминология машинного обучения ИМХО в настоящее время путаница, которая предлагает ложные связи / причины / зависимости здесь.

Когда вы посмотрите на подход 3 (перекрестная проверка не для оптимизации, а для измерения производительности модели), вы обнаружите, что перекрестная проверка «решение» в сравнении с обучением для всего набора данных является ложной дихотомией в этом контексте: при использовании перекрестной проверки для измерения эффективности классификатора, показатель качества перекрестной проверки используется в качестве оценки для модели, обученной на всем наборе данных. Т.е. подход 3 включает в себя подход 1.
Теперь давайте посмотрим на 2-е решение: оптимизация модели на основе данных или нет. Это ИМХО решающий момент здесь. И да, есть ситуации реального мира, когда лучше не проводить оптимизацию моделей на основе данных. Оптимизация данных на основе данных происходит за плату. Вы можете думать об этом так: информация в наборе данных используется для оценки не только $p$ параметры / коэффициенты модели, но оптимизация делает оценку других параметров, так называемых гиперпараметров. Если вы описываете процесс подбора и оптимизации / настройки модели как поиск параметров модели, то эта оптимизация гиперпараметра означает, что рассматривается значительно большее пространство поиска. Другими словами, в подходе 1 (и 3) вы ограничиваете пространство поиска, указывая эти гиперпараметры. Ваш набор данных реального мира может быть достаточно большим (содержать достаточно информации), чтобы позволить вписаться в это ограниченное пространство поиска, но недостаточно большим, чтобы достаточно хорошо фиксировать все параметры в большем пространстве поиска подходов 2 (и 4).

Фактически, в моей области мне очень часто приходится иметь дело с наборами данных, которые слишком малы, чтобы можно было подумать об оптимизации на основе данных. Итак, что мне делать вместо этого: я использую свои знания предметной области о данных и процессах генерирования данных, чтобы решить, какая модель лучше соответствует физической природе данных и приложения. И в этих рамках мне все еще приходится ограничивать сложность моей модели.

— cbeleites недоволен SX
источник

Хороший ответ. Я как-то надеялся, что вы внесете свой вклад в эту тему. Очевидный +1

— usεr11852

Спасибо за ваш информативный и полезный ответ. Из вашего ответа я узнал, что мы можем выбрать подход 2, когда у нас небольшие наборы данных не из-за проверки, а из-за выбора модели. Я прав? Приводит ли использование выбора модели для небольших наборов данных к недостаточному соответствию?

— SMA.D

Другой вопрос заключается в том, что в упражнении размер класса гипотез одинаков для обоих подходов 1 и 2. Насколько больше пространство поиска в этом случае для подхода 2?

— SMA.D

Что ж, если есть выбор в 2, а не в 1, то пространство поиска в 2 больше. Если пространство поиска в 2 не больше, то в подходе 2 действительно нечего выбирать. Мой ответ и интерпретация того, что означает подход 2, вызваны термином «выбор модели с использованием проверки». Если контекст все еще является тем из упражнения «когда перекрестная проверка завершается неудачей» перед тем, о котором идет речь, то книга может означать то, что я назвал подходом 3 выше, то есть выбор модели не задействован. Но в этом случае выбор модели слова действительно не должен быть там. Я не могу судить, насколько вероятно это ..

— cbeleites недоволен SX

... как я не знаю, что говорится в книге о выборе моделей, и каково их правило ERM (в моем словаре ERM распространяется на управление рисками предприятия ...). Однако мой ответ верен независимо от алгоритма моделирования.

— cbeleites недоволен SX