Очень интересный вопрос, мне придется читать газеты, которые вы даете ... Но, может быть, это заставит нас в направлении ответа:
Я обычно решаю эту проблему очень прагматично: я повторяю перекрестную проверку в k-кратном порядке с новыми случайными разбиениями и вычисляю производительность как обычно для каждой итерации. В этом случае общие тестовые образцы одинаковы для каждой итерации, и различия зависят от различий в данных.
Это я сообщаю, например, как 5–95-й процентиль наблюдаемой производительности по отношению к. обмен до образцов на новые образцы и обсуждение их как меры нестабильности модели.NК- 1
Примечание: я в любом случае не могу использовать формулы, которым нужен размер выборки. Поскольку мои данные имеют кластерную или иерархическую структуру (многие похожие, но не повторные измерения одного и того же случая, обычно несколько [сотен] разных мест одного и того же образца), я не знаю эффективного размера выборки.
сравнение с начальной загрузкой:
итерации используют новые случайные разбиения.
Основное отличие заключается в повторной выборке с (начальной загрузкой) или без замены (cv).
вычислительные затраты примерно одинаковы, так как я бы выбрал не итераций cv нет итераций начальной загрузки / k, то есть вычислил бы то же общее количество моделей.≈
bootstrap имеет преимущества перед cv с точки зрения некоторых статистических свойств (асимптотически правильно, возможно, вам нужно меньше итераций, чтобы получить хорошую оценку)
однако, с cv у вас есть преимущество в том, что вы гарантированно
- количество различных обучающих образцов одинаково для всех моделей (важно, если вы хотите рассчитать кривые обучения)
- каждый образец тестируется ровно один раз в каждой итерации
некоторые методы классификации отбрасывают повторные выборки, поэтому при начальной загрузке нет смысла
Дисперсия для производительности
краткий ответ: да, имеет смысл говорить о дисперсии в ситуации, когда существуют только {0,1} результаты.
Посмотрите на биномиальное распределение (k = успехи, n = тесты, p = истинная вероятность успеха = среднее k / n):
σ2( k ) = n p ( 1 - p )
Дисперсия пропорций (таких как частота попаданий, частота ошибок, чувствительность, TPR, ..., момента я буду использовать и для наблюдаемого значения в тесте) - это тема, которая заполняет целые книги .. ,рпп^
- Fleiss: статистические методы для показателей и пропорций
- Forthofer и Lee: Биостатистика имеет хорошее представление.
Теперь и поэтому:п^= кN
σ2( р^) = p ( 1 - p )N
Это означает, что неопределенность измерения эффективности классификатора зависит только от истинной производительности p тестируемой модели и количества тестируемых образцов.
В перекрестной проверке вы принимаете
что k «суррогатных» моделей имеют ту же истинную производительность, что и «настоящая» модель, которую вы обычно строите из всех образцов. (Нарушение этого предположения является известным пессимистическим уклоном).
что k «суррогатных» моделей имеют одинаковую истинную производительность (эквивалентны, имеют стабильные прогнозы), поэтому вы можете объединять результаты k тестов.
Конечно, тогда можно объединять не только k «суррогатных» моделей одной итерации cv, но и ki-модели i-итераций k-кратного cv.
Зачем повторять?
Главное, что говорят итерации, - нестабильность модели (прогнозирования), т. Е. Дисперсия прогнозов разных моделей для одной и той же выборки.
Вы можете напрямую сообщать о нестабильности как, например, дисперсию в прогнозировании данного тестового примера, независимо от того, является ли прогноз корректным или немного более косвенным, как дисперсию для различных итераций cv.п^
И да, это важная информация.
Теперь, если ваши модели абсолютно стабильны, все или будут производить точно такой же прогноз для данной выборки. Другими словами, все итерации будут иметь одинаковый результат. Дисперсия оценки не была бы уменьшена итерацией (предполагая, что ). В этом случае предположение 2 из вышеупомянутого выполнено, и вы подчиняетесь только где n - общее количество образцов, протестированных во всех K складок сорта.
В этом случае итерации не нужны (кроме как для демонстрации стабильности). к ⋅ п я т е р . с V п - 1 ≈ п σ 2 ( р ) = р ( 1 - р )Nб о о т ы т т рk ⋅ nя т е р . с V n - 1 ≈ nσ2( р^) = p ( 1 - p )N
Затем можно построить доверительные интервалы для истинной производительности из наблюдаемого отсутствия успехов в тестах. Таким образом, строго говоря, нет необходимости сообщать о неопределенности дисперсии, если сообщается и . Однако в моей области не многие люди знают об этом или даже имеют интуитивное представление о том, насколько велика неопределенность с размером выборки. Так что я бы рекомендовал сообщить об этом в любом случае.к п р ппКNп^N
Если вы наблюдаете нестабильность модели, объединенное среднее является лучшей оценкой истинной производительности. Дисперсия между итерациями является важной информацией, и вы можете сравнить ее с ожидаемой минимальной дисперсией для тестового набора размера n с истинной средней производительностью по всем итерациям.