Я обеспокоен тем, что точность прогноза, рассчитанная между каждым разом, зависит от существенного совпадения между тренировочными наборами (хотя наборы предсказаний независимы).
ИМХО, пересечение между тренировочными наборами не должно быть большой проблемой здесь. То есть, конечно, важно проверить, стабильны ли модели. Стабильный подразумевает, что предсказания суррогатных моделей перекрестной проверки эквивалентны (т. Е. Независимый случай получит одно и то же предсказание всеми этими моделями), и фактически перекрестная проверка обычно претендует на эквивалентность не только между суррогатными моделями, но и моделью, обученной на всех случаев. Так что эта зависимость скорее является следствием того, что мы хотим иметь.
Это относится к типичному вопросу: если я обучу модель на этих данных, каковы интервалы прогнозирования? Если вместо этого вопрос, если мы обучаем модель для случаев этой совокупности, каковы интервалы прогнозирования?, Мы не можем ответить на него, потому что это совпадение в обучающих наборах означает, что мы недооцениваем дисперсию на неизвестную величину.n
Каковы последствия по сравнению с тестированием с независимым набором тестов?
- Оценки перекрестной проверки могут иметь более высокую дисперсию, чем тестирование окончательной модели с независимым набором тестов того же размера, потому что в дополнение к дисперсии из-за тестовых случаев мы сталкиваемся с дисперсией из-за нестабильности суррогатных моделей.
Однако, если модели стабильны, эта дисперсия мала / незначительна. Кроме того, этот тип стабильности может быть измерен.
Что может не быть измерено , насколько репрезентативна весь набор данных по сравнению с населением она была нарисована из. Это включает в себя часть смещения окончательной модели (однако смещение может также иметь небольшой независимый набор тестов), и это означает, что соответствующая дисперсия не может быть оценена путем перекрестной проверки.
В прикладной практике (эффективность модели, обученной на этих данных), расчет интервала прогнозирования столкнется с проблемами, которые IMHO более важны, чем то, что часть перекрестной проверки отклонений не может обнаружить: например,
- перекрестная проверка не может проверить производительность для случаев, которые независимы во времени (обычно необходимы прогнозы для случаев, которые измеряются в будущем)
- данные могут содержать неизвестные кластеры, и производительность вне кластера может быть важной. Кластерные данные - это то, что вы можете учитывать при перекрестной проверке, но вам необходимо знать о кластеризации.
Это нечто большее, чем просто перекрестная проверка по сравнению с независимым набором тестов: в основном вам нужно сесть и разработать исследование проверки, в противном случае существует высокий риск того, что «независимый» набор тестов не так уж и независим. Как только это будет сделано, можно подумать о том, какие факторы могут иметь практическое значение, а какими можно пренебречь. Вы можете прийти к выводу, что после тщательного рассмотрения перекрестная оценка достаточно хороша и целесообразна, поскольку независимая проверка будет слишком дорогой по сравнению с возможным получением информации.
Сложив все вместе, я бы использовал обычную формулу для стандартного отклонения, назову ее по аналогии с и подробно как проводилось тестирование.sCVRMSECV