Оптимальное количество сгибов в перекрестной проверке с


47

Помимо соображений вычислительной мощности, есть ли основания полагать, что увеличение количества сгибов при перекрестной проверке приводит к лучшему выбору / проверке модели (т. Е. Чем больше сгибов, тем лучше)?

Если доводить аргумент до крайности, обязательно ли перекрестная проверка по принципу « один-за-один» обязательно приведет к лучшим моделям, чем перекрестная проверка по кратному критерию?K

Немного предыстории по этому вопросу: я работаю над проблемой с очень небольшим числом случаев (например, 10 положительных и 10 отрицательных) и боюсь, что мои модели могут плохо обобщать / будут переизбытки с таким небольшим количеством данных.



Этот вопрос не является дубликатом, поскольку он ограничивается небольшими наборами данных и «соображениями вычислительной мощности в стороне». Это серьезное ограничение, делающее вопрос неприменимым для лиц с большими наборами данных и алгоритмом обучения с вычислительной сложностью, по крайней мере, линейной по количеству экземпляров (или прогноз по крайней мере по квадратному корню из числа экземпляров).
Серж Рогач

Ответы:


46

Перекрестная проверка с опущением один раз, как правило, не приводит к лучшей производительности, чем K-кратная, и, скорее всего, будет хуже , поскольку она имеет относительно высокую дисперсию (т. Е. Ее значение изменяется для разных выборок данных больше, чем значение для k-кратная перекрестная проверка). Это плохо в критерии выбора модели, так как это означает, что критерий выбора модели можно оптимизировать способами, которые просто используют случайное отклонение в конкретной выборке данных, а не вносят подлинные улучшения в производительность, т.е. критерий выбора модели. Причина, по которой перекрестная проверка по принципу «один-один-один» используется на практике, заключается в том, что для многих моделей она может быть оценена очень дешево как побочный продукт подбора модели.

Если вычислительные затраты не являются в первую очередь проблемой, лучшим подходом является выполнение повторной перекрестной проверки в k-кратном порядке, где процедура перекрестной проверки в k-кратном режиме повторяется с различными случайными разбиениями на k непересекающихся подмножеств каждый раз. Это уменьшает дисперсию.

Если у вас есть только 20 шаблонов, очень вероятно, что вы столкнетесь с чрезмерным соответствием критерию выбора модели, который представляет собой заброшенную ловушку в статистике и машинном обучении (бесстыдный плагин: см. Мою статью по теме). Возможно, вам будет лучше выбрать относительно простую модель и постараться не очень агрессивно ее оптимизировать, либо использовать байесовский подход и усреднить все варианты моделей, взвешенные по их вероятности. ИМХО оптимизация - корень всего зла в статистике, поэтому лучше не оптимизировать, если вам это не нужно, и оптимизировать с осторожностью, когда вы это делаете.

Также обратите внимание, что если вы собираетесь выполнять выбор модели, вам нужно использовать что-то вроде вложенной перекрестной проверки, если вам также нужна оценка производительности (т.е. вы должны рассматривать выбор модели как неотъемлемую часть процедуры подбора модели и перекрестной проверки, что также).


8
+1. Мне нравится ваше сообщение "оптимизация - корень всего зла в статистике" ...
С. Коласса - Восстановить Монику

5
Спасибо @DikranMarsupial. Я не совсем понимаю. Почему модели, изученные по принципу « оставь один раз», имеют более высокую дисперсию, чем при регулярной перекрестной проверке в k-кратном размере? Моя интуиция подсказывает мне, что, поскольку в разных сгибах мы смещаем только одну точку данных, тренировочные наборы между сгибами сильно перекрываются, поэтому я ожидаю увидеть небольшое расхождение между моделями. Или же в другом направлении, в K-сгибе, если K низкое, тренировочные наборы для каждого сгиба будут совершенно разными, и результирующие модели с большей вероятностью будут отличаться. Я ошибаюсь?
Амелио Васкес-Рейна

Это очень хороший вопрос сам по себе, поэтому я предлагаю вам задать его как новый вопрос, и я подумаю, как на него ответить!
Дикран Marsupial

Спасибо @DikranMarsupial Я последовал вашему совету и начал отдельный вопрос здесь .
Амелио Васкес-Рейна

1
@DikranMarsupial Я подумал, что упомяну здесь, что я начал еще одну тему, вдохновленную вашим комментарием "оптимизация в статистике" в этом ответе. Ваш комментарий заставил меня взглянуть на переоснащение с более широкой перспективы, к которой я привык.
Амелио Васкес-Рейна

8

Выбор числа K сгибов с учетом кривой обучения

K

K

Подводя итог, можно сказать, что если кривая обучения имеет значительный уклон при заданном размере обучающего набора, перекрестная проверка в пять или десять раз переоценивает истинную ошибку прогноза. Является ли этот уклон недостатком на практике, зависит от цели. С другой стороны, перекрестная проверка по принципу «один-один-один» имеет низкое смещение, но может иметь высокую дисперсию.

Интуитивная визуализация на примере игрушек

Чтобы понять этот аргумент визуально, рассмотрим следующий игрушечный пример, где мы подгоняем полином 4 степени к шумовой синусоиде:

введите описание изображения здесь

1±

введите описание изображения здесь

Обсуждать аргумент

Производительность модели значительно улучшается при увеличении размера тренировки до 50 наблюдений. Например, увеличение числа до 200 приносит лишь небольшие выгоды. Рассмотрим следующие два случая:

  1. 5K

  2. 505K

введите описание изображения здесь

[Обновление] - Комментарии по методологии

Вы можете найти код для этой симуляции здесь . Подход был следующий:

  1. sin(x)+ϵϵ
  2. iN
  3. i
    • K
    • Сохраните среднюю среднеквадратичную ошибку (MSE) в K-кратных значениях
  4. iiK
  5. K{5,...,N}

Альтернативный подход состоит в том, чтобы не повторять выборку нового набора данных на каждой итерации и вместо этого каждый раз переставлять один и тот же набор данных. Это, кажется, дает аналогичные результаты.



1MSE1112

MSE=Var+Bias2ϵU(.5,.5)1/12(ba)21/12
Ксавье Бурре Сикот
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.