TLDR:
Мой набор данных довольно маленький (120) выборок. При выполнении 10-кратной перекрестной проверки я должен:
Соберите выходные данные из каждого тестового сгиба, объедините их в вектор, а затем вычислите ошибку на этом полном векторе прогнозов (120 выборок)?
Или я должен вместо этого вычислить ошибку на выходах, которые я получаю в каждом сгибе (с 12 выборками на сгиб), а затем получить мою окончательную оценку ошибки как среднее из 10-кратных оценок ошибки?
Существуют ли какие-либо научные труды, которые утверждают различия между этими методами?
Справочная информация: Потенциальная связь с макро / микро баллами в мультимаркированной классификации:
Я думаю, что этот вопрос может быть связан с различием между микро и макро средними значениями, которые часто используются в задаче классификации с несколькими метками (например, 5 меток).
В настройке с несколькими метками микро-средние оценки рассчитываются путем составления агрегированной таблицы непредвиденных обстоятельств истинного положительного, ложного положительного, истинного отрицательного, ложного отрицательного для всех 5 прогнозов классификатора на 120 выборках. Эта таблица непредвиденных обстоятельств затем используется для вычисления микро точности, микро отзыва и микро f-меры. Поэтому, когда у нас есть 120 выборок и пять классификаторов, микро меры рассчитываются по 600 прогнозам (120 выборок * 5 меток).
При использовании варианта « Макро» каждый вычисляет меры (точность, отзыв и т. Д.) Независимо для каждой метки и, наконец, эти меры усредняются.
Идея, лежащая в основе разницы между оценками микро и макро, может быть расширена до того, что может быть сделано в K-кратной настройке в задаче двоичной классификации. В 10 раз мы можем либо усреднить более 10 значений ( макроизмерение ), либо объединить 10 экспериментов и вычислить микроизмерения .
Фон - Расширенный пример:
Следующий пример иллюстрирует вопрос. Допустим, у нас есть 12 тестовых образцов, и у нас есть 10 сгибов:
- Сгиб 1 : TP = 4, FP = 0, TN = 8 Точность = 1,0
- Сгиб 2 : TP = 4, FP = 0, TN = 8 Точность = 1,0
- Сгиб 3 : TP = 4, FP = 0, TN = 8 Точность = 1,0
- Сгиб 4 : TP = 0, FP = 12, точность = 0
- Сгиб 5 .. Сгиб 10 : у всех одинаковые TP = 0, FP = 12 и Precision = 0
где я использовал следующие обозначения:
TP = количество истинных отрицательных значений, FP = # ложных положительных значений , TN = количество истинных отрицательных значений
Результаты:
- Средняя точность в 10 раз = 3/10 = 0,3
- Точность при объединении прогнозов в 10 крат = TP / TP + FP = 12/12 + 84 = 0,125
Обратите внимание, что значения 0,3 и 0,125 очень разные !