Усреднение точности и отзыв при использовании перекрестной проверки

Я выполнил классификацию с использованием нескольких классификаторов для данных, помеченных для двух классов, и использовал пятикратную перекрестную проверку. Для каждого сгиба я вычислял tp, tn, fp и fn. Затем я рассчитал точность, точность, отзыв и F-показатель для каждого теста. Мой вопрос заключается в том, что, когда я хочу усреднить результаты, я взял среднее значение точности, но могу ли я также усреднить точность, вспомнить и F-показатель? Или это будет математически неправильно? PS Наборы данных, используемые в каждом сгибе, хорошо сбалансированы с точки зрения количества экземпляров на класс.

Спасибо.

classification cross-validation precision-recall

— Kalaji
источник

Я столкнулся с той же проблемой, что и при вычислении F-меры (среднее значение точности и отзыва) с использованием перекрестной проверки. В этой статье они фактически продемонстрировали, что вычисление F-меры по полному набору, а не усреднение, является менее предвзятым методом. Я надеюсь, что это может помочь

— папафе

@markusian Пожалуйста, добавьте это как ответ! Это, безусловно, самая важная вещь на этой странице!

— drevicko

$F$

F_{1} = 2 \cdot \frac{precision \cdot recall}{precision + recall}

$F_1 = 2\cdot\frac{\textrm{precision} \cdot \textrm{recall}}{\textrm{precision} + \textrm{recall}}$

F_{β}

$F_\beta$

β

$\beta$

F_{β} = (1 + β^{2}) \frac{precision \cdot recall}{(β^{2} \cdot precision) + recall}

$F_\beta = (1+\beta^2) \frac{\textrm{precision} \cdot \textrm{recall}}{(\beta^2 \cdot\textrm{precision}) + \textrm{recall}}$

F

$F$

Просто имейте в виду, что существуют некоторые проблемы с использованием этих значений, чтобы сделать выводы об ошибке обобщения классификаторов. Например, тест между оценками для одного классификатора и оценками для другого классификатора будет слишком оптимистичным. $t$ $F$ $F$

— Мэтт Краузе
источник

Да, я использовал первую формулу. Это означает, что усреднение F-показателя по различным тестам дает схожие результаты с усреднением точности и повторного вызова, а затем вычисление F-показателя по ним. Я попробовал это на результатах, которые я имею, и это было почти то же самое. Спасибо.

— Каладжи