Когда мы вычисляем F-меру, учитывая как точность, так и отзыв, мы берем гармоническое среднее двух мер вместо простого среднего арифметического.
Какая интуитивная причина взятия гармонического среднего, а не простого среднего?
Когда мы вычисляем F-меру, учитывая как точность, так и отзыв, мы берем гармоническое среднее двух мер вместо простого среднего арифметического.
Какая интуитивная причина взятия гармонического среднего, а не простого среднего?
Ответы:
Здесь у нас уже есть некоторые подробные ответы, но я подумал, что дополнительная информация об этом будет полезна некоторым парням, которые хотят вникнуть глубже (особенно, почему F-измерение).
Согласно теории измерения составная мера должна удовлетворять следующим 6 определениям:
Затем мы можем вывести и получить функцию эффективности:
И обычно мы используем не эффективность, а гораздо более простую оценку F, потому что :
Теперь, когда у нас есть общая формула меры F:
где мы можем уделить больше внимания отзыву или точности, установив бета, потому что бета определяется следующим образом:
Если мы весим отзыв более важным, чем точность (все релевантные выбраны), мы можем установить бета как 2, и мы получим меру F2. И если мы делаем обратное и весовую точность выше, чем возврат (как можно больше выбранных элементов релевантны, например, в некоторых сценариях исправления грамматических ошибок, таких как CoNLL ), мы просто устанавливаем бета как 0,5 и получаем меру F0,5. И, очевидно, мы можем установить бета как 1, чтобы получить наиболее часто используемую меру F1 (среднее гармоническое значение точности и отзыва).
Думаю, в какой-то степени я уже ответил, почему мы не используем среднее арифметическое.
Рекомендации:
Чтобы объяснить, рассмотрим, например, что в среднем составляет 30 и 40 миль в час? если вы едете 1 час на каждой скорости, средняя скорость за эти 2 часа действительно является средним арифметическим, 35 миль в час.
Однако, если вы едете на одинаковое расстояние на каждой скорости - скажем, 10 миль - то средняя скорость на 20 миль - это среднее гармоническое значение 30 и 40, примерно 34,3 мили в час.
Причина в том, что для того, чтобы среднее значение было действительным, вам действительно нужно, чтобы значения были в одних и тех же масштабированных единицах. Необходимо сравнить мили в час за такое же количество часов; чтобы сравнить такое же количество миль, вам нужно вместо этого усреднить часы на милю, что и делает среднее гармоническое.
И точность, и отзыв имеют истинные положительные значения в числителе и разные знаменатели. Чтобы усреднить их, на самом деле имеет смысл только усреднить их обратные, то есть гармоническое среднее.
Потому что это больше наказывает за крайние ценности.
Рассмотрим тривиальный метод (например, всегда возвращать класс A). Существует бесконечное количество элементов данных класса B и единственный элемент класса A:
Precision: 0.0
Recall: 1.0
Если взять среднее арифметическое, оно будет правильным на 50%. Несмотря на наихудший исход! С гармоническим средним значением F1-мера равна 0.
Arithmetic mean: 0.5
Harmonic mean: 0.0
Другими словами, чтобы иметь высокий F1, вам необходимо как имеют высокую точность и вспомнить.
Приведенные выше ответы хорошо объяснены. Это просто для быстрой справки, чтобы понять природу среднего арифметического и гармонического среднего с графиками. Как видно из графика, рассматривайте ось X и ось Y как точность и отзывчивость, а ось Z - как оценку F1. Таким образом, если судить по графику среднего гармонического, точность и отзыв должны вносить равный вклад в повышение оценки F1 в отличие от среднего арифметического.
Это для среднего арифметического.
Это для среднего гармонического.
Гармоническое среднее значение эквивалентно среднему арифметическому для обратных величин, которые должны быть усреднены по среднему арифметическому. Точнее, с помощью гармонического среднего вы преобразуете все свои числа в «усредняемую» форму (взяв обратную величину), вы берете их среднее арифметическое, а затем преобразуете результат обратно в исходное представление (снова принимая обратную величину).
Точность и отзыв «естественно» взаимозаменяемы, потому что их числитель один и тот же, а знаменатели разные. Дроби более разумно усреднять средним арифметическим, если они имеют одинаковый знаменатель.
Для большей интуиции предположим, что мы сохраняем количество истинно положительных элементов постоянным. Затем, взяв гармоническое среднее значение точности и отзыва, вы неявно берете среднее арифметическое ложных срабатываний и ложноотрицательных результатов. Это в основном означает, что ложные срабатывания и ложные отрицания одинаково важны для вас, когда истинные срабатывания остаются неизменными. Если алгоритм имеет на N ложных срабатываний больше, но на N ложных срабатываний меньше (при тех же истинных срабатываниях), F-мера остается прежней.
Другими словами, F-мера подходит, когда:
Пункт 1 может быть или не быть верным, существуют взвешенные варианты F-меры, которые можно использовать, если это предположение не верно. Пункт 2 вполне естественен, поскольку мы можем ожидать масштабирования результатов, если мы просто классифицируем все больше и больше точек. Относительные числа должны остаться прежними.
Пункт 3 довольно интересен. Во многих приложениях отрицание является естественным значением по умолчанию, и может быть даже сложно или произвольно указать, что действительно считается отрицательным. Например, пожарная тревога имеет истинное отрицательное событие каждую секунду, каждую наносекунду, каждый раз, когда проходит время Планка и т. Д. Даже кусок камня все время имеет эти истинно отрицательные события обнаружения пожара.
Или в случае обнаружения лица, большую часть времени вы « неправильно не возвращаете » миллиарды возможных областей изображения, но это не интересно. Интересные случаи , когда вы действительно возвращают предлагаемое обнаружение или когда вы должны вернуть его.
Напротив, точность классификации в равной степени касается истинных положительных и истинно отрицательных результатов и больше подходит, если общее количество выборок (событий классификации) четко определено и довольно мало.