Почему сумма Точности и Напомним не является достойной мерой?


12

Что такое лучший способ объяснить , почему , это не является хорошим показателем, скажем, по сравнению с F1?Precision+Recall


Что бы это значило? Как бы вы это истолковали? Что бы это на самом деле сказать вам?
Мэтью Друри

1
Вы должны изменить заголовок, заменив «Precision + Recall» на «сумму Precision and Recall», чтобы сделать его более понятным, чем вы хотите.
g3o2

@ g3o2 мы говорим здесь грамматику или я что-то упустил?
матовый

Не совсем, просто отметив, что он также может быть прочитан Precision & Recall, особенно при чтении только заголовка.
g3o2

Ответы:


18

Это не значит, что является плохой меркой как таковой, просто само по себе итоговое число не представляет собой ничего значащего. Вы находитесь на правильном пути, хотя ... то, что мы ищем - это совокупное среднее двух показателей эффективности, поскольку мы не хотим выбирать между ними.Precision+Recall

Напомним, что точность и отзыв определяются как:

отзыв=истинный положительный

Precision=True PositivePredicted Positive
Recall=True PositiveActual Positive

Поскольку оба имеют разные знаменатели, их сложение приводит к чему-то вроде этого: ... который не особенно полезен.

True Positive(Predicted Positive+Actual Positive)Predicted Positive×Actual Positive

Давайте вернемся к их сложению и внесем изменения: умножим их на так что они находятся в правильной шкале,[0-1]. Это берет знакомое среднее из них.12[01]

12×(True PositivePredicted Positive+True PositiveActual Positive)

Итак, у нас есть две величины, которые имеют один и тот же числитель, но разные знаменатели, и мы хотели бы взять среднее из них. Что мы делаем? Ну, мы могли бы перевернуть их, взять их обратное. Тогда вы можете добавить их вместе. Таким образом, они "правая сторона вверх", вы снова принимаете обратное.

Этот процесс обращения, а затем обращения снова превращает «правильное» среднее в среднее гармоническое. Так уж получилось, что гармоническое среднее точности и отзыва - это F1-статистика. Среднее гармоническое значение обычно используется вместо стандартного среднего арифметического при работе со ставками, как мы здесь делаем.

В конце концов, статистика F1 - это просто среднее значение точности и отзыва, и вы используете его, потому что не хотите выбирать один или другой для оценки производительности модели.


2
Действительно большое спасибо за любезную разработку гармонического среднего из алгебраического среднего! но то, что, вероятно, не очень прочно со мной, это та часть, где вы говорите «что не особенно полезно». В этом ключе я прокомментировал ниже два других ответа теперь. На всякий случай, если вы сделаете еще один шаг вперед. Например, представьте, что я хочу выбрать лучший классификатор среди группы классификаторов, протестированных по одному и тому же набору данных.
матовый

@matt, использование любой комбинированной меры приведет ваш выбор модели к определенной точке, но не дальше. Две модели, имеющие одинаковое значение F1, могут показывать совершенно противоположные значения Recall и Precision. Следовательно, для F1, то же самое, вам придется выбирать между Recall и Precision.
g3o2

4

Краткий ответ: вы не ожидаете, что суммирование двух процентов, имеющих два разных знаменателя, будет иметь какое-то конкретное значение. Следовательно, подход принять среднюю меру, такую ​​как F1, F2 или F0.5. Последние сохраняют как минимум свойство процента. А как насчет их значения?

Прелесть Precision и Recall в качестве отдельных мер заключается в их простоте интерпретации и в том, что их можно легко сопоставить с бизнес-целями модели. Точность измеряет процент true positivesслучаев, классифицированных positiveпо модели. Напомним, измеряет процент true positivesнайденных моделью из всех trueслучаев. Для многих проблем вам придется выбирать между оптимизацией точности или повторного вызова.

Любая средняя мера теряет вышеприведенную интерпретацию и сводится к тому, какой показатель вы предпочитаете больше всего. F1 означает, что вы либо не знаете, предпочитаете ли вы Recall или Precision, либо вы придает равный вес каждому из них. Если вы считаете Recall более важным, чем Precision, то вам также следует присвоить ему больший вес в среднем расчете (например, F2), и наоборот (например, F0.5).


3

Добавление двух это плохая мера. Вы получите по крайней мере 1 балл, если отметите все как положительные, поскольку это 100% отзыв по определению. И вы получите небольшой точный удар на вершине этого. Среднее геометрическое, используемое в F1, подчеркивает слабое звено, так как оно является мультипликативным; Вы должны, по крайней мере, делать все правильно, как с точностью, так и вспомнить, чтобы получить приличный счет Ф1.


На самом деле, именно этот акцент слабого звена, который я счел лишним, когда Precision и Recall являются разумными, а не острыми. Когда они оба не острые, я не уверен, что вижу добавленную стоимость метрики, подчеркивающей сходство между ними, или оцениваю их по-разному в зависимости от размера их различий. Именно это свойство частично мотивировало мой оригинальный вопрос здесь.
матовый

Звучит как дополнительная работа для меня. Если вы цените процентную точку отзыва точно так же, как и показатель точности, то я думаю, что ваш показатель - тот, который нужно использовать. Но я не могу представить тебя. Напомним, вероятно, будет доминировать, даже если вы уменьшите диапазоны. Вы можете с точностью масштабировать воспоминания, чтобы быть яблоками в яблоки, но это опять же больше работы и делает интерпретацию менее ясной.
Бен Огорек

1
Не уверен, почему предполагается, что отзыв должен доминировать (?), Но масштабирование отзыва с точностью до яблок-яблок может быть интересной связанной дискуссией здесь или в другом месте - указатель в правильном направлении может быть неплохо иметь :) и в противном случае еще раз спасибо
матовый

3

Оценка F1 особенно важна в случае сильно асимметричных вероятностей.

Рассмотрим следующий пример: мы проверяем на редкую, но опасную болезнь. Предположим, что в городе с населением 1.000.000 человек заражено только 100 человек.

Тест А обнаруживает все эти 100 положительных результатов. Тем не менее, он также имеет 50% ложных срабатываний: он ошибочно показывает, что еще 500 000 человек заболели.

Между тем, тест B пропускает 10% инфицированных, но дает только 1000 ложных срабатываний (0,1% ложных срабатываний)

Давайте подсчитаем баллы. Для теста A точность будет равна 0; Напомним, будет ровно 1. Для теста B точность все равно будет довольно небольшой, около 0,01. Напомним, будет равен 0,9.

Если мы наивно суммируем или берем среднее арифметическое точности и вспоминаем, это даст 1 (0,5) для теста A и 0,91 (0,455) для теста B. Таким образом, тест A будет казаться немного лучше.

Однако, если мы посмотрим с практической точки зрения, тест А бесполезен: если у человека положительный тест, его шанс заболеть - 1 на 50 000! Тест B имеет большее практическое значение: вы можете отвезти в больницу 1100 человек и внимательно наблюдать за ними. Это точно отражается оценкой F1: для теста A оно будет близко к 0,0002, для теста B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, что все еще довольно плохо, но примерно в 50 раз лучше.

Это совпадение между значением балла и практической значимостью - то, что делает балл F1 ценным.


Благодарю. Может быть, я недостаточно погружен в это дело, но разве это разъяснение не зависит от прагматического преимущества распределения ресурсов для «позитивов» в реальной области, где целью является обнаружение одного результата (позитива)? это не всегда так, что целью является обнаружение одного результата, не так ли? иногда вы просто хотите узнать, яблоко это или пара, и оба типа ошибок имеют одинаковую практическую цену в реальном мире.
матовый

Прежде всего, я не вижу, как это свойство «лучше» масштабируется до случаев, когда (абсолютная) разница между точностью и отзывом менее патологична. Может быть , интуиция по своей сути, но я еще не там ...
матовый

1

В общем, максимизация среднего геометрического подчеркивает значения, являющиеся подобными. Например, возьмем две модели: первая имеет (точность, отзыв) = (0,8, 0,8), а вторая имеет (точность, отзыв) = (0,6, 1,0). Используя алгебраическое среднее, обе модели будут эквивалентны. Используя среднее геометрическое, первая модель лучше, потому что она не обменивается точностью на отзыв.


1
Большое спасибо. Однако в практическом плане я не вижу каких-либо универсально применимых предпочтений, например, между (0,8, 0,8) и (0,7, 0,9). Может быть, вы намекали на что-то более глубокое в «обмене Точность на отзыв» - что я сам не собираюсь поднимать (пока). Для меня алгебраическое усреднение двух типов ошибок, просто дает простейшее среднее из них, без смещения сходства. Например, я мог бы использовать простое суммирование Precision и Recall, чтобы выяснить, какой из двух классификаторов дает мне меньше ошибок.
матовый

Мы можем довести это до крайности. Допустим, у вас есть одна система, которая имеет (точность, отзыв) = (0,6, 0,6). Это означает, что когда он говорит «да», это правильно в 60% случаев, и он правильно улавливает 60% событий «да». Теперь давайте сравним это с системой, которая имеет (0.3, 1). Это имеет лучшее алгебраическое среднее, но что оно делает? Он улавливает все события «да», но также много и неправильно говорит «да» . Это хорошо? Это плохо? Это зависит от того, почему вы строите систему. Какие действия вы предпримете, когда увидите прогноз «да»? Каковы последствия пропуска события «да»?
roundsquare

1
Ни одна из этих мер не является правильной оценкой правил
Фрэнк Харрелл

@roundsquare большое спасибо, но за непатологические случаи - когда оба не близки к 0 и 1 - мне, вероятно, нужна помощь, чтобы увидеть выгоду подчеркивания сходства между этими двумя, в конечном итоге!
матовый

@FrankHarrell спасибо за указание на «слон в комнате»
матовый
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.