Образцы начальной загрузки используются для оценки производительности алгоритма по многим итерациям. При этом оценивается производительность на случайно измененных наборах.
В отличие от этого, например, при выполнении 10-кратной перекрестной проверки вы выполняете только 10 итераций для различных наборов данных поезда и теста.
Теперь, когда размер вашей выборки мал, скажем, а число итераций начальной загрузки велико, давайте выберем , и вы не будете пересчитывать свои тестовые данные, как при работе с набором данных о поездах, у вас будут ситуации, когда Алгоритм видит один и тот же или очень похожий тест более одного раза. Ситуация, которую вы изначально хотели избежать с помощью начальной загрузки.n=20i=10,000
Ссылка, которую вы постете, недоступна, поэтому я добавил описание функции в текущей (0.14) версии sklearn
Описание метода
Случайная выборка с заменой итератора перекрестной проверки Предоставляет индексы поезда / теста для разделения данных в наборах тестов поездов при повторной дискретизации входных значений n_iter: каждый раз, когда выполняется новое случайное разделение данных, а затем отбираются образцы (с заменой) на каждой стороне из раскола, чтобы построить учебные и тестовые наборы. Примечание: в отличие от других стратегий перекрестной проверки, начальная загрузка позволит некоторым выборкам встречаться несколько раз в каждом разделении. Однако выборка, которая происходит в разделении поезда, никогда не будет происходить в тестовом разделении и наоборот. Если вы хотите, чтобы каждый образец появлялся не более одного раза, вам, вероятно, следует использовать перекрестную проверку ShuffleSplit.