Я собираюсь объяснить это несколькими различными способами, потому что это помогло мне понять это.
Давайте возьмем конкретный пример. Вы делаете тест на заболевание в группе людей. Теперь давайте определимся с некоторыми терминами. Для каждого из следующих я имею в виду человека, который был проверен:
Истинно положительный (TP) : имеет заболевание, идентифицированное как имеющее заболевание
Ложно-положительный (FP) : не имеет заболевания, идентифицированного как имеющее заболевание
Истинно отрицательный (TN) : не имеет заболевания, идентифицированного как не имеющее заболевания
Ложноотрицательный (FN) : имеет заболевание, идентифицированное как не имеющее заболевания
Визуально это обычно показывают с помощью матрицы путаницы :
Уровень ложноположительных результатов (FPR) - это число людей, у которых нет заболевания, но которые идентифицированы как имеющие заболевание (все FP), деленное на общее количество людей, у которых нет заболевания (включая все FP и TN) ,
FпR = FпFп+ TN
Уровень ложного обнаружения (FDR) - это число людей, у которых нет заболевания, но которые идентифицированы как имеющие заболевание (все FP), деленное на общее количество людей, которые идентифицированы как имеющие заболевание (включает все FP и TP). ).
FD R = FпFп+ Tп
Итак, разница в знаменателе, т.е. с чем вы сравниваете количество ложных срабатываний?
FPR говорит вам долю всех людей , которые не имеют заболевания , которые будут определены как имеющие заболевание.
FDR говорит вам часть всех людей , идентифицированных как имеющие заболевания , которые не имеют это заболевание.
Поэтому оба являются полезными, отличными мерами неудачи. В зависимости от ситуации и пропорций TP, FP, TN и FN, вы можете больше заботиться о том, что другое.
Давайте теперь добавим некоторые цифры к этому. Вы измерили 100 человек для этой болезни, и вы получаете следующее:
Истинные позитивы (ТП) : 12
Ложные срабатывания (FP) : 4
Истинные негативы (TNs) : 76
Ложные негативы (FNs) : 8
Чтобы показать это с помощью матрицы путаницы:
Потом,
FпR = FпFп+ TN= 44 + 76= 480= 0,05 = 5 %
FD R = FпFп+ Tп= 44 + 12= 416= 0,25 = 25 %
Другими словами,
FPR сообщает вам, что 5% людей, у которых не было заболевания, были идентифицированы как имеющие заболевание. FDR сообщает вам, что 25% людей, которые были идентифицированы как имеющие заболевание, на самом деле не имели заболевания.
РЕДАКТИРОВАТЬ на основе комментария @ amoeba (также цифры в примере выше):
N
[Примечание: Википедия указывает, что, хотя FPR математически эквивалентен частоте появления ошибок типа I, он считается концептуально отличным, поскольку один тип обычно устанавливается априори, а другой обычно используется для измерения производительности теста впоследствии. Это важно, но я не буду обсуждать это здесь].
И для большей полноты:
Очевидно, что FPR и FDR - не единственные релевантные метрики, которые можно вычислить с помощью четырех величин в матрице путаницы. Из множества возможных метрик, которые могут быть полезны в разных контекстах , вы можете столкнуться с двумя относительно общими:
Истинный положительный показатель (TPR) , также известный как чувствительность , - это доля людей, у которых есть заболевание, которое идентифицировано как имеющее заболевание.
ТпR = TпТп+ FN
True Negative Rate (TNR) , также известный как специфичность , - это доля людей, у которых нет заболевания, которые идентифицированы как не имеющие заболевания.
ТNR = TNТN+ Fп