Ближайшее интуитивное значение f1-показателя воспринимается как среднее значение отзыва и точности. Давайте проясним это для вас:
В задаче классификации вы, возможно, планируете построить классификатор с высокой точностью и отзывом. Например, классификатор, который говорит, честен ли человек или нет.
Для точности вы обычно можете точно сказать, сколько честных людей существует в данной группе. В этом случае, заботясь о высокой точности, вы предполагаете, что можете ошибочно классифицировать лжеца как честного, но не часто. Другими словами, здесь вы пытаетесь идентифицировать лжеца из честной группы в целом.
Однако, для справки, вы будете действительно обеспокоены, если считаете лжеца честным человеком. Для вас это будет большой потерей и большой ошибкой, и вы не захотите делать это снова. Кроме того, все в порядке, если вы классифицируете кого-то честного как лжеца, но ваша модель никогда не должна (или в большинстве случаев не претендует) на лжеца как честного. Другими словами, здесь вы сосредоточены на конкретном классе и стараетесь не ошибиться в этом.
Теперь, давайте возьмем случай, когда вы хотите, чтобы ваша модель (1) точно идентифицировала честного лжеца (точность) (2) идентифицировала каждого человека из обоих классов (напомним). Это означает, что вы выберете модель, которая будет хорошо работать по обоим показателям.
Решение о выборе модели будет затем пытаться оценить каждую модель на основе среднего значения двух метрик. F-Score является лучшим, который может описать это. Давайте посмотрим на формулу:
Напомним: p = tp / (tp + fp)
Напомним: r = tp / (tp + fn)
F-оценка: fscore = 2 / (1 / r + 1 / p)
Как видите, чем выше отзыв и точность, тем выше F-оценка.