F1 / Dice-Score против IoU

Я был озадачен различием между показателем F1, значением Dice и IoU (пересечение по объединению). К настоящему времени я обнаружил, что F1 и Dice означают одно и то же (верно?), И у IoU есть формула, очень похожая на две другие.

F1 / Dice: $\frac{2 T P}{2 T P + F P + F N}$ $\frac{2TP}{2TP+FP+FN}$
IoU / Jaccard: $\frac{T P}{T P + F P + F N}$ $\frac{TP}{TP+FP+FN}$

Существуют ли какие-либо практические различия или другие вещи, которые стоит отметить, кроме того, что F1 весит истинные позитивы выше? Есть ли ситуация, когда я бы использовал один, но не другой?

terminology accuracy precision-recall

— pietz
источник

По-видимому, коэффициент Жакара также такой же, как у IoU

— pietz

Мне было бы особенно интересно, если некоторые из этих (теперь 4) измерений предназначены только для двоичных данных.

— Pietz

Вы на правильном пути.

Итак, несколько вещей сразу. Из определения двух метрик мы имеем, что баллы IoU и F всегда находятся в пределах коэффициента 2 друг от друга: а также что они встречаются в крайних единицах и нулях в условиях что вы ожидаете (идеальное совпадение и полностью непересекающиеся).

F / 2 \leq я о U \leq F

$F/2 \leq IoU \leq F$

Следует также отметить , что отношение между ними могут быть связаны явно с Iou:

я о U / F знак равно 1 / 2 + я о U / 2

$IoU/F = 1/2 + IoU/2$ , так что отношение приближается к 1/2 , как обе метрики стремятся к нулю.

Но есть более сильное утверждение, которое можно сделать для типичного применения классификации а-ля машинного обучения. Для любой фиксированной «основной истины» две метрики всегда положительно коррелируют. То есть, если классификатор A лучше, чем B по одной метрике, он также лучше, чем классификатор B по другой метрике.

В таком случае заманчиво сделать вывод, что эти две метрики функционально эквивалентны, поэтому выбор между ними является произвольным, но не таким быстрым! Проблема возникает при получении среднего балла за набор выводов . Тогда разница возникает при количественной оценке , как классификатор B хуже, чем A для любого конкретного случая.

В целом метрика IoU имеет тенденцию штрафовать отдельные случаи плохой классификации в количественном отношении больше, чем оценка F количественно, даже если они оба могут согласиться с тем, что этот один случай является плохим. Подобно тому, как L2 может оштрафовать наибольшие ошибки больше, чем L1, метрика IoU имеет тенденцию оказывать «возведение в квадрат» на ошибки по сравнению с F-баллом. Таким образом, показатель F имеет тенденцию измерять что-то ближе к средней производительности, в то время как показатель IoU измеряет что-то ближе к производительности в худшем случае.

Предположим, например, что подавляющее большинство выводов умеренно лучше с классификатором A, чем с B, но некоторые из них значительно хуже с использованием классификатора A. Может случиться так, что метрика F благоприятствует классификатору A, тогда как метрика IoU благоприятствует классификатор Б.

Безусловно, обе эти метрики намного более похожи, чем они отличаются. Но оба они страдают от другого недостатка с точки зрения принятия средних значений этих баллов по многим выводам: они оба преувеличивают важность наборов с практически нулевыми фактическими, основанными на истинности положительными наборами. В типичном примере сегментации изображения, если изображение имеет только один пиксель некоторого обнаруживаемого класса, и классификатор обнаруживает этот пиксель и еще один пиксель, его F-оценка составляет всего 2/3, а IoU еще хуже при 1 / 2. Тривиальные ошибки, подобные этим, могут серьезно влиять на среднюю оценку, полученную за набор изображений. Короче говоря, он взвешивает каждую пиксельную ошибку обратно пропорционально размеру выбранного / релевантного набора, а не обрабатывает их одинаково.

$c_0$ $c_1$

— Виллем
источник

Виллем, я бы не попросил лучшего ответа. Большое спасибо, что нашли время.

— Питс

Я попробовал ваш метод полной ошибки и просто хотел добавить, что он не работает с постоянным дисбалансом между позитивами и негативами. Представьте себе целый набор данных изображений, где только один пиксель составляет основную сегментацию правды. Нейронные сети могут довольно быстро узнать, что пустой прогноз всегда на 99,9% точнее, используя общую ошибку. Переходя к IoU или DSC, мы заставляем сеть найти сегментацию по тем же причинам, которые вы упомянули выше. Итак, в конце концов, это очень проблема, зависит.

— Пец

Может ли кто-нибудь помочь мне согласовать следующие два утверждения ?: 1:

"That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."

и 2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."

— Мэтт

Первый относится к оценке одного вывода, а второй относится к средней оценке за набор выводов (например, набор изображений).

— Виллем