Смещение и отклонение в перекрестном подтверждении по сравнению с K-кратной проверкой


83

Как разные методы перекрестной проверки сравниваются с точки зрения дисперсии модели и смещения?

Мой вопрос частично мотивирован этой веткой: Оптимальное количество сгибов в перекрестной проверке с кратным распределением : всегда ли лучший выбор - резюме с пропуском? K, Ответ на этот вопрос предполагает, что модели, изученные с помощью перекрестной проверки с пропуском, имеют более высокую дисперсию, чем модели, изученные с помощью регулярной перекрестной проверки с кратным повторением, что делает CV на основе пропуска одним худшим выбором.K

Тем не менее, моя интуиция подсказывает мне, что в CV, оставленном без участия, следует видеть относительно более низкую дисперсию между моделями, чем в CV с кратным сгибом, поскольку мы смещаем только одну точку данных по сгибам, и, следовательно, обучающие наборы между сгибами существенно перекрываются.K

Или в другом направлении, если в K- кратном CV низок , обучающие наборы будут сильно отличаться в разных сгибах, и результирующие модели с большей вероятностью будут отличаться (следовательно, более высокая дисперсия).KK

Если приведенный выше аргумент верен, почему модели, изученные с помощью однозначного резюме, имеют более высокую дисперсию?


2
Привет Амелио. Обратите внимание , что расчеты , представленные в новом ответе на Ксавье и в этом старшем Q Джейк в Западном Крае stats.stackexchange.com/questions/280665 , как показывают , что дисперсия уменьшается с . Это прямо противоречит принятому в настоящее время ответу, а также наиболее одобренному ответу (который был принят ранее). Я не видел ни одного моделирования, которое бы поддержало утверждение, что дисперсия увеличивается с K и является самой высокой для LOOCV. KK
говорит амеба: восстанови Монику

2
Спасибо @amoeba Я наблюдаю за ходом обоих ответов. Я обязательно сделаю все возможное, чтобы убедиться, что принятый ответ указывает на самый полезный и правильный.
Амелио Васкес-Рейна

1
@amoeba, см. researchgate.net/profile/Francisco_Martinez-Murcia/publication/… который показывает увеличение дисперсии с k
Ханан Штейнгарт

было бы интересно посмотреть, откуда он взял этот график, при первом взгляде на тезис он выглядит так, как будто он составлен в соответствии с его объяснениями во вводных разделах. Возможно, это реальная симуляция, но это не объяснено, и это, конечно, не результат его реальных экспериментов, которые ниже ...
Ксавье Бурре Сикотт

Ответы:


51

почему модели, изученные с помощью одноразового резюме, имеют более высокую дисперсию?

[TL: DR] Резюме последних сообщений и дебатов (июль 2018 г.)

Эта тема широко обсуждалась как на этом сайте, так и в научной литературе, с противоречивыми взглядами, интуицией и выводами. Еще в 2013 году , когда этот вопрос был первым спросили, доминирующая точка зрения заключалось в том , что LOOCV приводит к большей дисперсии ожидаемой ошибки обобщения алгоритма обучения производить модели из образцов размера .n(K1)/K

Эта точка зрения, однако, представляется неправильным обобщением частного случая, и я бы сказал, что правильный ответ: «это зависит ...»

Перефразируя Ива Грандвалета, автора статьи 2004 года на эту тему, я бы подытожил интуитивный аргумент следующим образом:

  1. Если перекрестная проверка представляла собой усреднение независимых оценок : тогда CV без учета одного следует видеть относительно более низкую дисперсию между моделями, поскольку мы смещаем только одну точку данных по сгибам, и, следовательно, обучающие наборы между сгибами существенно перекрываются.
  2. Это неверно, когда обучающие наборы сильно коррелированы : корреляция может увеличиваться с увеличением K, и это увеличение отвечает за общее увеличение дисперсии во втором сценарии. Интуитивно понятно, что в этой ситуации одноразовое резюме может быть слепым к существующим нестабильностям, но не может быть вызвано изменением одной точки в обучающих данных, что делает его весьма изменчивым для реализации обучающего набора.

KK

Остальная часть этого ответа предлагает симуляцию на игрушечном примере и неформальный обзор литературы.

[Обновление] Вы можете найти здесь альтернативную симуляцию для нестабильной модели при наличии выбросов.

Симуляции на игрушечном примере, показывающие уменьшение / постоянную дисперсию

Рассмотрим следующий игрушечный пример, где мы подгоняем полином 4 степени к шумной синусоиде. Мы ожидаем, что эта модель будет плохо работать для небольших наборов данных из-за переобучения, как показано кривой обучения.

введите описание изображения здесь

Обратите внимание, что мы планируем 1 - MSE здесь, чтобы воспроизвести иллюстрацию из ESLII стр. 243

 методология

Вы можете найти код для этой симуляции здесь . Подход был следующий:

  1. sin(x)+ϵϵ
  2. iN
  3. i
    • K
    • Сохраните среднюю среднеквадратичную ошибку (MSE) в K-кратных значениях
  4. iiK
  5. K{5,...,N}

Ki

Левая сторона : Kfolds для 200 точек данных, Правая сторона : Kfolds для 40 точек данных

введите описание изображения здесь

Стандартное отклонение MSE (по наборам данных i) против Kfolds

введите описание изображения здесь

Из этой симуляции кажется, что:

  • N=40KK=10K
  • K5
  • N=200K

Неформальный обзор литературы

Следующие три статьи исследуют смещение и дисперсию перекрестной проверки

Кохави 1995

Эта статья часто упоминается как источник для аргумента, что LOOC имеет более высокую дисперсию. В разделе 1:

«Например, увольнение почти беспристрастно, но имеет высокую дисперсию, что приводит к ненадежным оценкам (Efron 1983)»

Это утверждение является источником большой путаницы, потому что, похоже, оно было написано Эфроном в 1983 году, а не Кохави. Как теоретические аргументы Кохави, так и экспериментальные результаты противоречат этому утверждению:

Следствие 2 (Дисперсия в CV)

k

Эксперимент В своем эксперименте Кохави сравнивает два алгоритма: дерево решений C4.5 и наивный байесовский классификатор по нескольким наборам данных из хранилища UC Irvine. Его результаты приведены ниже: LHS - точность против сгибов (то есть смещение), а RHS - стандартное отклонение против сгибов.

введите описание изображения здесь

Фактически, только дерево решений по трем наборам данных имеет более высокую дисперсию для увеличения K. Другие результаты показывают уменьшение или постоянную дисперсию.

Наконец, хотя заключение можно сформулировать более убедительно, нет никаких аргументов в пользу того, что LOO имеет более высокую дисперсию, как раз наоборот. Из раздела 6. Резюме

«Перекрестная проверка в k-кратном порядке с умеренными значениями k (10-20) уменьшает дисперсию ... По мере того как k-уменьшается (2-5) и выборки становятся меньше, возникает дисперсия из-за нестабильности самих обучающих наборов.

Чжан и Ян

Авторы твердо придерживаются этой темы и четко заявляют в разделе 7.1.

Фактически, линейная регрессия по методу наименьших квадратов, Burman (1989) показывает, что среди k-кратных CV, при оценке ошибки прогнозирования, LOO (т.е. n-кратное CV) имеет наименьшее асимптотическое смещение и дисперсию. ...

... Затем теоретический расчет ( Lu , 2007) показывает, что LOO имеет наименьшее смещение и дисперсию одновременно среди всех delete-n CV со всеми возможными n_v удалениями, рассмотренными

Экспериментальные результаты Аналогичным образом эксперименты Чжана указывают в направлении уменьшения дисперсии с K, как показано ниже для истинной модели и неправильной модели для рисунка 3 и рисунка 5.

введите описание изображения здесь

введите описание изображения здесь

K

Однако, если выбор модели задействован, производительность LOO ухудшается в изменчивости, поскольку неопределенность выбора модели становится выше из-за большого пространства модели, небольших штрафных коэффициентов и / или использования управляемых данными штрафных коэффициентов


11
KK

4
@amoeba вот случай, когда LOOCV терпит неудачу: рассмотрим n точек данных и интерполирующий полином степени n. Теперь удвойте количество точек данных, добавив дубликаты справа на каждую существующую точку. LOOCV говорит, что ошибка равна нулю. Вам нужно опустить складки, чтобы получить любую полезную информацию.
Пол

2
Для тех, кто заинтересован в этом обсуждении - давайте продолжим в чате: chat.stackexchange.com/rooms/80281/…
Ксавье Бурре Сикот

1
kfoldk=10

1
@amoeba: re Kohavi / LOO и дисперсии. Я обнаружил, что LOO для некоторых моделей классификации может быть (удивительно) нестабильным. Это особенно заметно в небольшом размере выборки, и я думаю, что это связано с тем, что тестовый пример всегда принадлежит к классу, который недопредставлен относительно. вся выборка: в бинарной классификации стратифицированный отпуск-2, похоже, не имеет этой проблемы (но я не тестировал экстенсивно). Эта нестабильность добавила бы к наблюдаемой дисперсии, заставляя LOO выделяться из других вариантов k. IIRC, это согласуется с выводами Кохави.
cbeleites

45

kkSSiSSiSi

k>2

Var(i=1NXi)=i=1Nj=1NCov(Xi,Xj)

k

Тем не менее, обратите внимание, что, хотя двукратная перекрестная проверка не имеет проблемы с наложением обучающих наборов, она также часто имеет большие расхождения, поскольку обучающие наборы составляют только половину размера исходной выборки. Хороший компромисс - десятикратная перекрестная проверка.

Некоторые интересные статьи, которые касаются этой темы (из многих других):


5
+1 (давно), но перечитывая ваш ответ сейчас, я смущен следующим битом. Вы говорите, что 2-кратное резюме «часто также имеет большую дисперсию, потому что тренировочные наборы составляют только половину размера». Я понимаю, что иметь тренировочный набор в два раза меньше - это проблема, но почему он дает "большую дисперсию"? Разве это не должно быть "большой уклон" вместо этого? Тогда весь вопрос выбора количества сгибов становится компромиссом отклонения, как это часто представляется.
говорит амеба: восстанови Монику

1
k

3
Просто изучал литературу. Интересно, что во введении к статистическому обучению Джеймс, Виттен, Хасти и Тибширани говорят, что LOOCV «сильно варьируется, поскольку основан на одном наблюдении (x1, y1)». а в «Элементах статистического обучения» Хасти, Тибширани и Фридман говорят, что LOOCV «может иметь высокую дисперсию, потому что N обучающих наборов очень похожи друг на друга».

2
var[Σxi/n]ΣΣcov(xi,xj)/n2

3
Нет, это не совсем "суть". Люди используют k-кратное резюме, чтобы постоянно получать единую оценку. Конечно, вы можете попытаться использовать множественные оценки другими способами, но их объединение является одним из наиболее распространенных способов оценки эффективности удержания техники моделирования. И это именно то, что делает уравнение 7.48 ESL.
Пол

27

K

Я думаю, что ваша интуиция имеет смысл, если вы думаете о прогнозах, сделанных моделями в каждой раздаче. Они основаны на коррелированных / очень похожих данных (полный набор данных минус одна точка данных) и, следовательно, будут давать схожие прогнозы, т. Е. Низкая изменчивость.

Однако источник путаницы заключается в том, что, когда люди говорят о LOOCV, приводящем к высокой изменчивости, они не говорят о предсказаниях, сделанных многими моделями, построенными во время этой петли перекрестной проверки на наборах несогласных. Вместо этого они говорят о том, насколько изменчива будет ваша окончательно выбранная модель (та, что была выбрана с помощью LOOCV), если вы обучите эту точную модель / параметры на новых тренировочных наборах - тренировочных наборах, которых ваша модель раньше не видела. В этом случае изменчивость будет высокой.

Почему изменчивость будет высокой? Давайте немного упростим это. Представьте, что вместо использования LOOCV для выбора модели у вас был только один обучающий набор, а затем вы протестировали модель, построенную с использованием этих обучающих данных, скажем, 100 раз на 100 единичных тестовых точках данных (точки данных не являются частью обучающего набора). , Если вы выберете модель и набор параметров, которые лучше всего подходят для этих 100 тестов, то вы выберете тот, который позволит этому конкретному обучающему набору действительно хорошо предсказать данные теста. Вы могли бы потенциально выбрать модель, которая фиксирует 100% связей между этим конкретным набором обучающих данных и данными удержания. К сожалению, некоторая часть этих ассоциаций между обучающими и тестовыми наборами данных будет связана с шумом или ложными связями, потому что, хотя набор тестов меняется, и вы можете определить шум на этой стороне, обучающий набор данных этого не делает, и вы не можете определить, что объясняется отклонением из-за шума. Другими словами, это означает, что ваши прогнозы соответствуют конкретному набору данных.

Теперь, если бы вам пришлось многократно переучивать эту модель с одинаковыми параметрами на новых тренировочных наборах, что бы произошло? Что ж, модель, которая соответствует определенному набору обучающих данных, приведет к изменчивости ее прогноза при изменении обучающего набора (т. Е. Слегка измените обучающий набор, и модель существенно изменит свои прогнозы).

Поскольку все сгибы в LOOCV сильно коррелированы, это похоже на вышеописанный случай (один и тот же тренировочный набор; разные контрольные точки). Другими словами, если этот конкретный обучающий набор имеет некоторую ложную корреляцию с этими контрольными точками, ваша модель будет испытывать трудности при определении того, какие корреляции являются реальными, а какие ложными, потому что, даже если тестовый набор изменяется, обучающий набор этого не делает.

Напротив, менее коррелированные тренировочные сгибы означают, что модель будет соответствовать нескольким уникальным наборам данных. Таким образом, в этой ситуации, если вы переучите модель на другом новом наборе данных, это приведет к аналогичному прогнозу (т. Е. Небольшой изменчивости).


4
Я думаю, что этот ответ разъясняет намного больше, чем принятый ответ и, в частности, объясняет принятый ответ.
D1X

что вы подразумеваете под> «Теперь, если бы вам пришлось многократно переучивать эту модель с одинаковыми параметрами на новых тренировочных наборах, что бы произошло?». Тренировка означает поиск параметров, верно? ты хотел сказать гиперпараметры?
MiloMinderbinder

14

Хотя этот вопрос довольно старый, я хотел бы добавить дополнительный ответ, потому что я думаю, что стоит пояснить это немного подробнее.

Мой вопрос частично мотивирован этой веткой: Оптимальное количество сгибов при перекрестной проверке с K-кратным смещением: всегда ли лучший вариант - резюме с одним пропуском? , Ответ на этот вопрос говорит о том, что модели, изученные с помощью перекрестной проверки по принципу «один-единственный выход», имеют более высокую дисперсию, чем те, которые были изучены с помощью регулярной перекрестной проверки по K-кратному критерию.

Этот ответ не предполагает этого, и не должен. Давайте рассмотрим ответ, предоставленный там:

Перекрестная проверка с опущением один раз, как правило, не приводит к лучшей производительности, чем K-кратная, и, скорее всего, будет хуже, поскольку она имеет относительно высокую дисперсию (т. Е. Ее значение изменяется для разных выборок данных больше, чем значение для k-кратная перекрестная проверка).

Это говорит о производительности . Здесь производительность следует понимать как производительность модели оценки ошибок . Что вы оцениваете с помощью k-fold или LOOCV, так это производительность модели, как при использовании этих методов для выбора модели, так и для предоставления оценки ошибки самой по себе. Это НЕ дисперсия модели, это дисперсия оценки ошибки (модели). Смотрите пример (*) ниже.

Тем не менее, моя интуиция подсказывает мне, что в CV с отрывом от одного следует видеть относительно более низкую дисперсию между моделями, чем в CV с K-кратным смещением, поскольку мы смещаем только одну точку данных через сгибы, и поэтому обучающие наборы между сгибами существенно перекрываются.

n2n

Именно эта более низкая дисперсия и более высокая корреляция между моделями делает оценку, о которой я говорю выше, более дисперсной, поскольку эта оценка является средним значением этих коррелированных величин, а дисперсия среднего значения коррелированных данных выше, чем оценка некоррелированных данных. , Здесь показано почему: дисперсия среднего значения коррелированных и некоррелированных данных .

Или в другом направлении, если K в K-кратном CV низок, обучающие наборы будут сильно отличаться в разных сгибах, и результирующие модели с большей вероятностью будут отличаться (следовательно, более высокая дисперсия).

На самом деле.

Если приведенный выше аргумент верен, почему модели, изученные с помощью однозначного резюме, имеют более высокую дисперсию?

Приведенный выше аргумент верен. Теперь вопрос не так. Дисперсия модели - это совсем другая тема. Существует разница, где есть случайная величина. В машинном обучении вы имеете дело со множеством случайных величин, в частности, но не ограничиваясь ими: каждое наблюдение является случайной величиной; выборка является случайной величиной; модель, поскольку она обучается из случайной величины, является случайной величиной; оценка ошибки, которую ваша модель будет производить при обращении к населению, является случайной величиной; и, наконец, что не менее важно, ошибка модели является случайной величиной, поскольку в совокупности может быть шум (это называется неустранимой ошибкой). Также может быть больше случайности, если в процессе обучения модели участвует случайность. Крайне важно различать все эти переменные.


errerrEerr~err~var(err~)E(err~err)var(err~)kfoldk<nerr=10err~1err~2

err~1=0,5,10,20,15,5,20,0,10,15...
err~2=8.5,9.5,8.5,9.5,8.75,9.25,8.8,9.2...

Последний, хотя и имеет больший уклон, должен быть предпочтительным, так как он имеет гораздо меньшую дисперсию и приемлемый уклон, то есть компромисс ( компромисс дисперсии смещения ). Пожалуйста, обратите внимание, что вы также не хотите очень низкую дисперсию, если это влечет за собой большой уклон!


Дополнительное примечание : в этом ответе я пытаюсь прояснить (как мне кажется,) неправильные представления, которые окружают эту тему, и, в частности, пытается ответить на вопрос по точкам и точно, какие сомнения у спрашивающего. В частности, я пытаюсь прояснить, о какой дисперсии мы говорим, о чем она здесь и просится. Т.е. я объясняю ответ, который связан с ОП.

При этом, хотя я и даю теоретическое обоснование этого утверждения, мы пока не нашли убедительных эмпирических доказательств, подтверждающих его. Поэтому, пожалуйста, будьте очень осторожны.

В идеале вы должны сначала прочитать этот пост, а затем сослаться на ответ Ксавье Бурре Сикотта, в котором содержится глубокий анализ эмпирических аспектов.

kkfoldk10 × 10fold


2
KK

3
kN

KK=10K=N

1
Еще не посмотрели эти бумаги, я посмотрю их, когда у меня будет время. Тем не менее, линейные модели OLS являются очень простыми моделями, которые на самом деле подвержены малой дисперсии. Мало того, они имеют закрытые формулы для перекрестной проверки.
D1X

1
+1 ваши правки делают ответ намного яснее - мы выровнены по влиянию корреляции между тренировочными наборами -> более высокая дисперсия. Однако на практике (экспериментально) кажется, что тренировочные наборы не всегда коррелируют между собой.
Ксавье Бурре Сикотт

12

Проблемы действительно тонкие. Но это определенно не правда, что LOOCV имеет большую дисперсию в целом. В недавней статье обсуждаются некоторые ключевые аспекты и рассматриваются несколько, казалось бы, распространенных заблуждений о перекрестной проверке.

Юнли Чжан и Юйхун Ян (2015). Перекрестная проверка для выбора процедуры выбора модели. Журнал эконометрики, вып. 187, 95-112.

Следующие заблуждения часто встречаются в литературе, даже до сих пор:

«CV с раздачей одного выхода (LOO) имеет меньший уклон, но большую дисперсию, чем резюме с упущением больше»

Эта точка зрения довольно популярна. Например, Кохави (1995, раздел 1) утверждает: «Например, увольнение почти беспристрастно, но имеет высокую дисперсию, что приводит к ненадежным оценкам». Это утверждение, однако, в целом не соответствует действительности.

Более подробно:

В литературе, даже включая недавние публикации, есть чрезмерно принятые рекомендации. Общее предложение Кохави (1995) использовать 10-кратное резюме было широко принято. Например, Крстажич и др. (2014, стр. 11) утверждают: «Кохави [6] и Хасти и др. [4] эмпирически показывают, что перекрестная проверка по V-кратному критерию по сравнению с перекрестной проверкой по принципу« один-один-выход »имеет меньшую дисперсию». Следовательно, они принимают рекомендацию 10-кратного CV (с повторением) для всех своих численных исследований. На наш взгляд, такая практика может вводить в заблуждение. Во-первых, не должно быть каких-либо общих рекомендаций, которые бы не учитывали цель использования CV. В частности, Проверка систематической ошибки и дисперсии оценки точности CV кандидата-модели / процедуры моделирования может сильно отличаться от выбора оптимальной модели (с одной из двух целей выбора модели, указанных ранее). Во-вторых, утверждение, даже ограниченное контекстом оценки точности, в целом неверно. Для моделей / процедур моделирования с низкой нестабильностью LOO часто имеет наименьшую изменчивость. Мы также продемонстрировали, что для крайне нестабильных процедур (например, LASSO с pn, значительно превышающим n), 10-кратные или 5-кратные CV, хотя и уменьшают изменчивость, могут иметь значительно большую MSE, чем LOO, из-за еще худшего увеличения смещения. Для моделей / процедур моделирования с низкой нестабильностью LOO часто имеет наименьшую изменчивость. Мы также продемонстрировали, что для крайне нестабильных процедур (например, LASSO с pn, значительно превышающим n), 10-кратные или 5-кратные CV, хотя и уменьшают изменчивость, могут иметь значительно большую MSE, чем LOO, из-за еще худшего увеличения смещения. Для моделей / процедур моделирования с низкой нестабильностью LOO часто имеет наименьшую изменчивость. Мы также продемонстрировали, что для крайне нестабильных процедур (например, LASSO с pn, значительно превышающим n), 10-кратные или 5-кратные CV, хотя и уменьшают изменчивость, могут иметь значительно большую MSE, чем LOO, из-за еще худшего увеличения смещения.

В целом, из рисунков 3-4, LOO и повторенные 50- и 20-кратные CV являются лучшими здесь, 10-кратно значительно хуже, а k ≤ 5 явно плохим. Для прогнозирующей оценки производительности мы склонны полагать, что LOO, как правило, является лучшим или одним из лучших для фиксированной модели или очень стабильной процедуры моделирования (такой как BIC в нашем контексте) как по смещению, так и по дисперсии, или довольно близко к лучшему в MSE для более нестабильной процедуры (например, AIC или даже LASSO с p ≫ n). Хотя 10-кратное резюме (с повторениями), безусловно, иногда может быть лучшим, но чаще оно находится в неловком положении: оно более рискованно, чем LOO (из-за проблемы смещения), для оценки ошибки прогнозирования и обычно хуже удаления -n / 2 CV для определения лучшего кандидата.


4
Можно ли немного расширить этот ответ, возможно, кратко изложить некоторые ключевые аспекты, затронутые в документе?
Серебряная рыба

3
Очень интересная статья. В обзоре Кохави (1995) я чувствовал, что многие утверждения были невероятно широкими и в основном необоснованными. Это бумага народной мудрости, критический допрос которой давно пора.
Пол

3

Прежде чем обсуждать смещение и дисперсию, первый вопрос:

Что оценивается перекрестной проверкой?

Kn(K1)/KKK

K

K

K


4
K

0

Я думаю, что есть более простой ответ. При увеличении k наборы тестов становятся все меньше и меньше. Так как сгибы выбираются случайным образом, с небольшими тестовыми наборами может случиться так, что с более крупными они не так вероятны, что они не являются репрезентативными для случайного перемешивания. Один набор тестов может содержать все трудные для прогнозирования записи, а другой - все простые. Таким образом, дисперсия высока, когда вы прогнозируете очень маленькие тестовые наборы за раз.


Xi

4
кажется, что вы говорите об изменчивости в предсказаниях моделей по наборам несогласованности во время перекрестной проверки. Я не думаю, что это представляет большой интерес. Интересно, будет ли ваша окончательно настроенная модель сильно отличаться в прогнозах, которые она делает, если она будет обучаться на разных данных (т.
Е.

И как бы вы оценили ожидаемое отклонение от еще невидимых данных, если бы не наблюдаемое отклонение среди последовательно предсказанных наборов данных, которые были неизвестны в то время? Я понимаю, однако, что изменчивость, которая проистекает только из экспериментальной установки, не представляет интереса. Мой ответ: Поэтому нужно выбрать экспериментальную установку, которая не вводит новые виды изменчивости. Если это так, два вида изменчивости нельзя различить, и становится все труднее оценить степень интересующего вида.
Дэвид Эрнст

1
Вы можете показать это с помощью моделирования (я поищу статью). Я не уверен, что мы говорим друг о друге, но когда спешка и люди говорят о высокой корреляции между тренировочными наборами в LOOCV, они подчеркивают, что вы в основном продолжаете тренировать свою модель в одном и том же наборе обучающих данных. Это приводит к переобучению к этому набору данных. Если вы измените набор обучающих данных, вы смоделируете прогнозы для тестового примера X, который сильно изменится. напротив, если ваши тренировочные наборы были менее коррелированными, вы можете использовать совершенно новый тренировочный набор и получить аналогичный прогноз для тестового примера X.
captain_ahab

Я думаю, что есть две отдельные проблемы. Увеличение k приводит к большему перекрытию между тренировочными наборами, что имеет последствия, о которых вы упомянули. (Я не спорю ни с чем из этого) В то же время, увеличение k приводит к меньшим наборам тестов за раз, что означает, что в этих наборах записи с большей вероятностью будут перетасовываться нежелательными способами. Я думаю, что для конкретного вопроса, это главная причина. Также могут быть вклады от тренировок. (Есть третья проблема, когда вы используете повторы, потому что тогда наборы тестов также перекрываются.)
Дэвид Эрнст
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.