В чем разница между начальной загрузкой и перекрестной проверкой?


21

Раньше я применял K-кратную перекрестную проверку для надежной оценки моих моделей машинного обучения. Но я знаю о существовании метода начальной загрузки для этой цели. Однако я не вижу основной разницы между ними с точки зрения оценки производительности.

Насколько я вижу, при начальной загрузке также производится определенное количество случайных обучающих + тестирующих подмножеств (хотя и по-другому), так какой смысл, преимущество использования этого метода перед CV? Единственное, что я мог выяснить, что в случае начальной загрузки можно было бы искусственно создать практически произвольное количество таких подмножеств, тогда как для CV количество экземпляров является своего рода ограничением для этого. Но этот аспект кажется очень маленьким неудобством.

Ответы:


17

И перекрестная проверка, и начальная загрузка являются методами повторной выборки .

  • запускает повторные выборки с заменой (и обычно создает новые «суррогатные» наборы данных с тем же числом случаев, что и исходный набор данных). Из-за чертежа с заменой загруженный набор данных может содержать несколько экземпляров одних и тех же исходных случаев и может полностью пропустить другие исходные случаи.
  • knx=nkk=n

  • Как следует из перекрестной проверки названия, его основная цель - измерение (обобщение) производительности модели. Напротив, начальная загрузка в основном используется для установления эмпирических функций распределения для широкого диапазона статистических данных (широко распространенных, например, в диапазоне от, скажем, изменения среднего значения до изменения моделей в ансамблевых моделях в мешках).

  • Необязательный аналог процедуры начальной загрузки называется jackknifing (и на самом деле он старше начальной загрузки).

  • Самозагрузки аналог кросс оценок проверки ошибок генерализации называется вне бутстрапе оценки (поскольку тестовые примеры являются те , которые были исключены из начальной загрузки передискретизируется обучающий набор).

[перекрестная проверка по сравнению с проверкой вне начальной загрузки] Однако я не вижу основного различия между ними с точки зрения оценки производительности.

k

Существует ряд попыток уменьшить смещение oob (.632-bootstrap, .632 + -bootstrap), но смогут ли они реально улучшить ситуацию, зависит от текущей ситуации.

Литература:


Единственное, что я мог выяснить, что в случае начальной загрузки можно было бы искусственно создать практически произвольное количество таких подмножеств, тогда как для CV количество экземпляров является своего рода ограничением для этого.

nk

  • CV комбинаций без замены (для k <n, которые намного больше, чем возможностей, которые обычно оцениваются) по сравнению с(nk)k
  • bootstrap / oob комбинаций с заменой (которые снова намного больше, чем, скажем, 100 или 1000 суррогатных моделей, которые обычно оцениваются)(2n1n)

3

Самозагрузка - это любой тест или метрика, основанная на случайной выборке с заменой. Это метод, который помогает во многих ситуациях, таких как проверка работоспособности прогнозирующей модели, ансамблевые методы, оценка смещения и дисперсии параметра модели и т. Д. выполнение выборки с заменой из исходного набора данных, и в то же время, предполагая, что точки данных, которые не были выбраны, являются тестовым набором данных. Мы можем повторить эту процедуру несколько раз и вычислить средний балл как оценку производительности нашей модели. Кроме того, Bootstrapping относится к методам обучения ансамбля, потому что мы можем построить модель, используя каждый набор данных начальной загрузки, и «сложить» эти модели в ансамбле, используя большинство голосов (для классификации) или вычисляя среднее значение (для численных прогнозов) для всех эти модели как наш конечный результат.

Перекрестная проверка - это процедура проверки эффективности модели, которая выполняется путем разделения обучающих данных на k частей. Мы предполагаем, что части k-1 - это тренировочный набор, а другая часть - наш тестовый набор. Мы можем повторить, что k раз по-разному протягивают разные части данных каждый раз. Наконец, мы берем среднее из k баллов в качестве нашей оценки производительности. Перекрестная проверка может страдать от смещения или отклонения. При увеличении количества делений дисперсия также возрастет, а смещение уменьшится. С другой стороны, если мы уменьшим количество разбиений, смещение увеличится, а дисперсия уменьшится.

Таким образом, перекрестная проверка разделяет доступный набор данных для создания нескольких наборов данных, а метод Bootstrapping использует исходный набор данных для создания нескольких наборов данных после повторной выборки с заменой. Начальная загрузка не так сильна, как перекрестная проверка, когда она используется для проверки модели. Начальная загрузка - это больше о построении ансамблевых моделей или просто оценке параметров.


2

Перекрестная проверка - это метод, целью которого является выяснение того, насколько хорошо ваша модель обобщает данные, с которыми не обучались. Это не влияет на результаты вашего алгоритма, оно только оценивает их.

Начальная загрузка - это метод Ensemble, который объединяет выходные данные нескольких моделей, таких как деревья решений, для получения усредненного результата . Технически говоря, он уменьшает дисперсию алгоритма классификации, основанного на одной модели, поскольку он усредняет выходные данные по выходным данным нескольких вариантов одной и той же структуры модели (с различными параметрами). Поэтому он изменяет производительность алгоритма классификации, но не оценивает его.

Другими словами : перекрестная проверка оценивает, насколько хорошо обобщает алгоритм, тогда как самозагрузка фактически помогает алгоритму лучше обобщать.

На самом деле вы можете использовать перекрестную проверку для загруженной модели, чтобы увидеть, насколько хорошо она обобщает.


3
То, что мешки не загружаются правильно?
elemolotiv

0
  • Перекрестная проверка: предоставьте оценки ошибки теста.
  • Bootstrap: предоставляет стандартную ошибку оценок.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.