Самозагрузка - это любой тест или метрика, основанная на случайной выборке с заменой. Это метод, который помогает во многих ситуациях, таких как проверка работоспособности прогнозирующей модели, ансамблевые методы, оценка смещения и дисперсии параметра модели и т. Д. выполнение выборки с заменой из исходного набора данных, и в то же время, предполагая, что точки данных, которые не были выбраны, являются тестовым набором данных. Мы можем повторить эту процедуру несколько раз и вычислить средний балл как оценку производительности нашей модели. Кроме того, Bootstrapping относится к методам обучения ансамбля, потому что мы можем построить модель, используя каждый набор данных начальной загрузки, и «сложить» эти модели в ансамбле, используя большинство голосов (для классификации) или вычисляя среднее значение (для численных прогнозов) для всех эти модели как наш конечный результат.
Перекрестная проверка - это процедура проверки эффективности модели, которая выполняется путем разделения обучающих данных на k частей. Мы предполагаем, что части k-1 - это тренировочный набор, а другая часть - наш тестовый набор. Мы можем повторить, что k раз по-разному протягивают разные части данных каждый раз. Наконец, мы берем среднее из k баллов в качестве нашей оценки производительности. Перекрестная проверка может страдать от смещения или отклонения. При увеличении количества делений дисперсия также возрастет, а смещение уменьшится. С другой стороны, если мы уменьшим количество разбиений, смещение увеличится, а дисперсия уменьшится.
Таким образом, перекрестная проверка разделяет доступный набор данных для создания нескольких наборов данных, а метод Bootstrapping использует исходный набор данных для создания нескольких наборов данных после повторной выборки с заменой. Начальная загрузка не так сильна, как перекрестная проверка, когда она используется для проверки модели. Начальная загрузка - это больше о построении ансамблевых моделей или просто оценке параметров.