Как интерпретировать значения F-меры?


41

Я хотел бы знать, как интерпретировать разницу значений f-меры. Я знаю, что f-мера - это сбалансированное среднее между точностью и отзывом, но я спрашиваю о практическом значении различия в F-мерах.

Например, если классификатор C1 имеет точность 0,4, а другой классификатор C2 - 0,8, то можно сказать, что C2 правильно классифицировал двойную часть тестовых примеров по сравнению с C1. Однако, если классификатор C1 имеет F-меру 0,4 для определенного класса, а другой классификатор C2 - F-меру 0,8, что мы можем сказать о разнице в производительности двух классификаторов? Можно ли сказать, что C2 правильно классифицировал X больше экземпляров, чем C1?


2
Я не уверен, что вы можете сказать много, поскольку F-мера является функцией точности и отзыва: en.wikipedia.org/wiki/F1_score . Вы можете сделать математику и удерживать одну (либо точную, либо отзывную) константу и что-то сказать о другой.
Ник

Ответы:


41

Я не могу думать об интуитивном значении меры F, потому что это просто комбинированная метрика. Конечно, более интуитивным, чем F-mesure, является точность и отзывчивость.

Но используя два значения, мы часто не можем определить, превосходит ли один алгоритм другой. Например, если один алгоритм имеет более высокую точность, но меньший отзыв, чем другой, как вы можете определить, какой алгоритм лучше?

Если у вас есть конкретная цель в уме, как «Точность - это король. Мне наплевать на воспоминания », тогда проблем нет. Чем выше точность, тем лучше. Но если у вас нет такой сильной цели, вам понадобится комбинированная метрика. Это F-мера. Используя его, вы сравните некоторые из точности и некоторые из воспоминаний.

Кривая ROC часто рисуется с указанием F-меры. Вы можете найти эту статью интересной, так как она содержит объяснение нескольких показателей, включая кривые ROC: http://binf.gmu.edu/mmasso/ROC101.pdf


23

Важность оценки F1 отличается в зависимости от сценария. Предположим, что целевая переменная является двоичной меткой.

  • Сбалансированный класс: в этой ситуации результат Формулы 1 может быть эффективно проигнорирован, ключевой является коэффициент неправильной классификации.
  • Несбалансированный класс, но оба класса важны: если распределение классов сильно искажено (например, 80:20 или 90:10), тогда классификатор может получить низкий уровень ошибочной классификации, просто выбрав класс большинства. В такой ситуации я бы выбрал классификатор, который получает высокие оценки F1 по обоим классам, а также низкий уровень ошибочной классификации. Классификатор, который получает низкие оценки F1, должен быть пропущен.
  • Несбалансированный класс, но один класс, если важнее другого. Например, при обнаружении мошенничества более важно правильно пометить экземпляр как мошеннический, а не пометить не мошеннический. В этом случае я бы выбрал классификатор, который имеет хороший результат Формулы 1 только по важному классу . Напомним, что оценка F1 доступна для каждого класса.

9

F-мера имеет интуитивное значение. Он говорит вам, насколько точен ваш классификатор (сколько экземпляров он классифицирует правильно), а также насколько он устойчив (он не пропускает значительное количество экземпляров).

С высокой точностью, но низкой степенью отзыва, ваш классификатор чрезвычайно точен, но он пропускает значительное количество экземпляров, которые трудно классифицировать. Это не очень полезно.

Посмотрите на эту гистограмму. введите описание изображения здесьНе обращайте внимания на его первоначальное назначение.

Справа вы получаете высокую точность, но низкий отзыв. Если я выберу только экземпляры с оценкой выше 0,9, мои классифицированные экземпляры будут чрезвычайно точными, однако я пропущу значительное количество экземпляров. Эксперименты показывают, что сладкое пятно здесь составляет около 0,76, где F-мера составляет 0,87.


5

F-мера - это гармоническое среднее вашей точности и отзыва. В большинстве ситуаций у вас есть компромисс между точностью и отзывом. Если вы оптимизируете свой классификатор для увеличения одного и потери другого, среднее значение гармоник быстро уменьшается. Однако лучше всего, когда точность и отзыв одинаковы.

Учитывая F-меры 0,4 и 0,8 для ваших классификаторов, вы можете ожидать, что они достигнут максимальных значений при взвешивании с точностью до отзыва.

Для наглядности взгляните на этот рисунок из Википедии :

введите описание изображения здесь

F-мера - это H , A и B - отзыв и точность. Вы можете увеличить один, но затем другой уменьшается.


Я нашел визуализацию «Скрещенные лестницы» несколько более простой - для меня это делает равенство A = B, приводящее к наибольшему H, более интуитивным
Coruscate5

3

Формула для F-меры (F1, с бета = 1) такая же, как формула, дающая эквивалентное сопротивление, составленное из двух сопротивлений, помещенных параллельно в физике (забывая о факторе 2).

Это может дать вам возможную интерпретацию, и вы можете подумать как об электронном, так и о тепловом сопротивлении. Эта аналогия будет определять F-меру как эквивалентное сопротивление, образованное чувствительностью и точностью, размещенными параллельно.

Для F-меры максимально возможное значение равно 1, и вы теряете сопротивление, как только один из двух также теряет сопротивление (то есть получается значение ниже 1). Если вы хотите лучше понять эту величину и ее динамику, подумайте о физическом явлении. Например, кажется, что F-мера <= max (чувствительность, точность).


3

Fβ-1/β2

пзнак равноTпTп+Fп
рзнак равноTпTп+FN
α
α1-рр+1-пп,
-αFββ2

1

Fβзнак равно1/((β2/(β2+1))1/р+(1/(β2+1))1/п)
β2<1пFβ

0

Ближайшее интуитивное значение f1-показателя воспринимается как среднее значение отзыва и точности. Давайте проясним это для вас:

В задаче классификации вы, возможно, планируете построить классификатор с высокой точностью и отзывом. Например, классификатор, который говорит, честен ли человек или нет.

Для точности вы обычно можете точно сказать, сколько честных людей существует в данной группе. В этом случае, заботясь о высокой точности, вы предполагаете, что можете ошибочно классифицировать лжеца как честного, но не часто. Другими словами, здесь вы пытаетесь идентифицировать лжеца из честной группы в целом.

Однако, для справки, вы будете действительно обеспокоены, если считаете лжеца честным человеком. Для вас это будет большой потерей и большой ошибкой, и вы не захотите делать это снова. Кроме того, все в порядке, если вы классифицируете кого-то честного как лжеца, но ваша модель никогда не должна (или в большинстве случаев не претендует) на лжеца как честного. Другими словами, здесь вы сосредоточены на конкретном классе и стараетесь не ошибиться в этом.

Теперь, давайте возьмем случай, когда вы хотите, чтобы ваша модель (1) точно идентифицировала честного лжеца (точность) (2) идентифицировала каждого человека из обоих классов (напомним). Это означает, что вы выберете модель, которая будет хорошо работать по обоим показателям.

Решение о выборе модели будет затем пытаться оценить каждую модель на основе среднего значения двух метрик. F-Score является лучшим, который может описать это. Давайте посмотрим на формулу:

Напомним: p = tp / (tp + fp)

Напомним: r = tp / (tp + fn)

F-оценка: fscore = 2 / (1 / r + 1 / p)

Как видите, чем выше отзыв и точность, тем выше F-оценка.


0

Зная, что оценка F1 является гармоническим средним значением точности и напоминания, ниже немного о них.

Я хотел бы сказать Напомним больше о ложноотрицательных .ie, имея более высокий Recall означает , что есть меньше Ложноотрицательные .

Отзывзнак равноTпTп+еN

Как бы ни было меньше FN или Zero FN, ваша модель предсказания действительно хороша.

точностьзнак равноTпTп+еп

То же самое здесь, Меньше или Ноль Ложных Позитивов означает, что предсказание модели действительно хорошо.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.