Вы на правильном пути.
Итак, несколько вещей сразу. Из определения двух метрик мы имеем, что баллы IoU и F всегда находятся в пределах коэффициента 2 друг от друга:
а также что они встречаются в крайних единицах и нулях
в условиях что вы ожидаете (идеальное совпадение и полностью непересекающиеся).
F/ 2≤Io U≤ F
Следует также отметить , что отношение между ними могут быть связаны явно с Iou:
яo U/ F= 1 / 2 + Яo U/ 2
,
так что отношение приближается к 1/2 , как обе метрики стремятся к нулю.
Но есть более сильное утверждение, которое можно сделать для типичного применения классификации а-ля машинного обучения. Для любой фиксированной «основной истины» две метрики всегда положительно коррелируют. То есть, если классификатор A лучше, чем B по одной метрике, он также лучше, чем классификатор B по другой метрике.
В таком случае заманчиво сделать вывод, что эти две метрики функционально эквивалентны, поэтому выбор между ними является произвольным, но не таким быстрым! Проблема возникает при получении среднего балла за набор выводов . Тогда разница возникает при количественной оценке , как классификатор B хуже, чем A для любого конкретного случая.
В целом метрика IoU имеет тенденцию штрафовать отдельные случаи плохой классификации в количественном отношении больше, чем оценка F количественно, даже если они оба могут согласиться с тем, что этот один случай является плохим. Подобно тому, как L2 может оштрафовать наибольшие ошибки больше, чем L1, метрика IoU имеет тенденцию оказывать «возведение в квадрат» на ошибки по сравнению с F-баллом. Таким образом, показатель F имеет тенденцию измерять что-то ближе к средней производительности, в то время как показатель IoU измеряет что-то ближе к производительности в худшем случае.
Предположим, например, что подавляющее большинство выводов умеренно лучше с классификатором A, чем с B, но некоторые из них значительно хуже с использованием классификатора A. Может случиться так, что метрика F благоприятствует классификатору A, тогда как метрика IoU благоприятствует классификатор Б.
Безусловно, обе эти метрики намного более похожи, чем они отличаются. Но оба они страдают от другого недостатка с точки зрения принятия средних значений этих баллов по многим выводам: они оба преувеличивают важность наборов с практически нулевыми фактическими, основанными на истинности положительными наборами. В типичном примере сегментации изображения, если изображение имеет только один пиксель некоторого обнаруживаемого класса, и классификатор обнаруживает этот пиксель и еще один пиксель, его F-оценка составляет всего 2/3, а IoU еще хуже при 1 / 2. Тривиальные ошибки, подобные этим, могут серьезно влиять на среднюю оценку, полученную за набор изображений. Короче говоря, он взвешивает каждую пиксельную ошибку обратно пропорционально размеру выбранного / релевантного набора, а не обрабатывает их одинаково.
с0с1