Что такое лучший способ объяснить , почему , это не является хорошим показателем, скажем, по сравнению с F1?
Что такое лучший способ объяснить , почему , это не является хорошим показателем, скажем, по сравнению с F1?
Ответы:
Это не значит, что является плохой меркой как таковой, просто само по себе итоговое число не представляет собой ничего значащего. Вы находитесь на правильном пути, хотя ... то, что мы ищем - это совокупное среднее двух показателей эффективности, поскольку мы не хотим выбирать между ними.
Напомним, что точность и отзыв определяются как:
отзыв=истинный положительный
Поскольку оба имеют разные знаменатели, их сложение приводит к чему-то вроде этого: ... который не особенно полезен.
Давайте вернемся к их сложению и внесем изменения: умножим их на так что они находятся в правильной шкале,[0-1]. Это берет знакомое среднее из них.
Итак, у нас есть две величины, которые имеют один и тот же числитель, но разные знаменатели, и мы хотели бы взять среднее из них. Что мы делаем? Ну, мы могли бы перевернуть их, взять их обратное. Тогда вы можете добавить их вместе. Таким образом, они "правая сторона вверх", вы снова принимаете обратное.
Этот процесс обращения, а затем обращения снова превращает «правильное» среднее в среднее гармоническое. Так уж получилось, что гармоническое среднее точности и отзыва - это F1-статистика. Среднее гармоническое значение обычно используется вместо стандартного среднего арифметического при работе со ставками, как мы здесь делаем.
В конце концов, статистика F1 - это просто среднее значение точности и отзыва, и вы используете его, потому что не хотите выбирать один или другой для оценки производительности модели.
Краткий ответ: вы не ожидаете, что суммирование двух процентов, имеющих два разных знаменателя, будет иметь какое-то конкретное значение. Следовательно, подход принять среднюю меру, такую как F1, F2 или F0.5. Последние сохраняют как минимум свойство процента. А как насчет их значения?
Прелесть Precision и Recall в качестве отдельных мер заключается в их простоте интерпретации и в том, что их можно легко сопоставить с бизнес-целями модели. Точность измеряет процент true positives
случаев, классифицированных positive
по модели. Напомним, измеряет процент true positives
найденных моделью из всех true
случаев. Для многих проблем вам придется выбирать между оптимизацией точности или повторного вызова.
Любая средняя мера теряет вышеприведенную интерпретацию и сводится к тому, какой показатель вы предпочитаете больше всего. F1 означает, что вы либо не знаете, предпочитаете ли вы Recall или Precision, либо вы придает равный вес каждому из них. Если вы считаете Recall более важным, чем Precision, то вам также следует присвоить ему больший вес в среднем расчете (например, F2), и наоборот (например, F0.5).
Добавление двух это плохая мера. Вы получите по крайней мере 1 балл, если отметите все как положительные, поскольку это 100% отзыв по определению. И вы получите небольшой точный удар на вершине этого. Среднее геометрическое, используемое в F1, подчеркивает слабое звено, так как оно является мультипликативным; Вы должны, по крайней мере, делать все правильно, как с точностью, так и вспомнить, чтобы получить приличный счет Ф1.
Оценка F1 особенно важна в случае сильно асимметричных вероятностей.
Рассмотрим следующий пример: мы проверяем на редкую, но опасную болезнь. Предположим, что в городе с населением 1.000.000 человек заражено только 100 человек.
Тест А обнаруживает все эти 100 положительных результатов. Тем не менее, он также имеет 50% ложных срабатываний: он ошибочно показывает, что еще 500 000 человек заболели.
Между тем, тест B пропускает 10% инфицированных, но дает только 1000 ложных срабатываний (0,1% ложных срабатываний)
Давайте подсчитаем баллы. Для теста A точность будет равна 0; Напомним, будет ровно 1. Для теста B точность все равно будет довольно небольшой, около 0,01. Напомним, будет равен 0,9.
Если мы наивно суммируем или берем среднее арифметическое точности и вспоминаем, это даст 1 (0,5) для теста A и 0,91 (0,455) для теста B. Таким образом, тест A будет казаться немного лучше.
Однако, если мы посмотрим с практической точки зрения, тест А бесполезен: если у человека положительный тест, его шанс заболеть - 1 на 50 000! Тест B имеет большее практическое значение: вы можете отвезти в больницу 1100 человек и внимательно наблюдать за ними. Это точно отражается оценкой F1: для теста A оно будет близко к 0,0002, для теста B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, что все еще довольно плохо, но примерно в 50 раз лучше.
Это совпадение между значением балла и практической значимостью - то, что делает балл F1 ценным.
В общем, максимизация среднего геометрического подчеркивает значения, являющиеся подобными. Например, возьмем две модели: первая имеет (точность, отзыв) = (0,8, 0,8), а вторая имеет (точность, отзыв) = (0,6, 1,0). Используя алгебраическое среднее, обе модели будут эквивалентны. Используя среднее геометрическое, первая модель лучше, потому что она не обменивается точностью на отзыв.