FPR (уровень ложных срабатываний) против FDR (уровень ложных обнаружений)


20

Следующая цитата взята из известной исследовательской работы « Статистическое значение для широких геномных исследований», проведенной Storey & Tibshirani (2003):

Например, ложноположительный показатель 5% означает, что в среднем 5% истинно нулевых признаков в исследовании будут названы значимыми. FDR (уровень ложного обнаружения), равный 5%, означает, что среди всех функций, называемых значимыми, 5% из них в среднем действительно нулевые.

Может кто-нибудь объяснить, что это значит, используя простой числовой или визуальный пример? Мне трудно понять, что это значит. Я нашел различные посты только на FDR или FPR, но не нашел ни одного, где было сделано конкретное сравнение.

Было бы особенно хорошо, если бы кто-то из экспертов в этой области мог проиллюстрировать ситуации, когда одно лучше другого или оба хороши или плохи.


3
Я заметил, что вы получили награду @ mkt за награду, Насир. Если этот ответ решил ваш вопрос для вас, вы также можете принять его, нажав на флажок слева под индикатором щедрости.
gung - Восстановить Монику

Ответы:


29

Я собираюсь объяснить это несколькими различными способами, потому что это помогло мне понять это.

Давайте возьмем конкретный пример. Вы делаете тест на заболевание в группе людей. Теперь давайте определимся с некоторыми терминами. Для каждого из следующих я имею в виду человека, который был проверен:

Истинно положительный (TP) : имеет заболевание, идентифицированное как имеющее заболевание

Ложно-положительный (FP) : не имеет заболевания, идентифицированного как имеющее заболевание

Истинно отрицательный (TN) : не имеет заболевания, идентифицированного как не имеющее заболевания

Ложноотрицательный (FN) : имеет заболевание, идентифицированное как не имеющее заболевания

Визуально это обычно показывают с помощью матрицы путаницы :

введите описание изображения здесь

Уровень ложноположительных результатов (FPR) - это число людей, у которых нет заболевания, но которые идентифицированы как имеющие заболевание (все FP), деленное на общее количество людей, у которых нет заболевания (включая все FP и TN) ,

Fпрзнак равноFпFп+ТN

Уровень ложного обнаружения (FDR) - это число людей, у которых нет заболевания, но которые идентифицированы как имеющие заболевание (все FP), деленное на общее количество людей, которые идентифицированы как имеющие заболевание (включает все FP и TP). ).

FDрзнак равноFпFп+Тп


Итак, разница в знаменателе, т.е. с чем вы сравниваете количество ложных срабатываний?

FPR говорит вам долю всех людей , которые не имеют заболевания , которые будут определены как имеющие заболевание.

FDR говорит вам часть всех людей , идентифицированных как имеющие заболевания , которые не имеют это заболевание.

Поэтому оба являются полезными, отличными мерами неудачи. В зависимости от ситуации и пропорций TP, FP, TN и FN, вы можете больше заботиться о том, что другое.


Давайте теперь добавим некоторые цифры к этому. Вы измерили 100 человек для этой болезни, и вы получаете следующее:

Истинные позитивы (ТП) : 12

Ложные срабатывания (FP) : 4

Истинные негативы (TNs) : 76

Ложные негативы (FNs) : 8

Чтобы показать это с помощью матрицы путаницы:

введите описание изображения здесь

Потом,

Fпрзнак равноFпFп+ТNзнак равно44+76знак равно480знак равно0,05знак равно5%

FDрзнак равноFпFп+Тпзнак равно44+12знак равно416знак равно0,25знак равно25%

Другими словами,

FPR сообщает вам, что 5% людей, у которых не было заболевания, были идентифицированы как имеющие заболевание. FDR сообщает вам, что 25% людей, которые были идентифицированы как имеющие заболевание, на самом деле не имели заболевания.


РЕДАКТИРОВАТЬ на основе комментария @ amoeba (также цифры в примере выше):

N

[Примечание: Википедия указывает, что, хотя FPR математически эквивалентен частоте появления ошибок типа I, он считается концептуально отличным, поскольку один тип обычно устанавливается априори, а другой обычно используется для измерения производительности теста впоследствии. Это важно, но я не буду обсуждать это здесь].


И для большей полноты:

Очевидно, что FPR и FDR - не единственные релевантные метрики, которые можно вычислить с помощью четырех величин в матрице путаницы. Из множества возможных метрик, которые могут быть полезны в разных контекстах , вы можете столкнуться с двумя относительно общими:

Истинный положительный показатель (TPR) , также известный как чувствительность , - это доля людей, у которых есть заболевание, которое идентифицировано как имеющее заболевание.

Тпрзнак равноТпТп+FN

True Negative Rate (TNR) , также известный как специфичность , - это доля людей, у которых нет заболевания, которые идентифицированы как не имеющие заболевания.

ТNрзнак равноТNТN+Fп


3
+1. Возможно, имеет смысл настроить числовой пример так, чтобы FPR = 5%, потому что это то, что вы будете иметь, если вы будете использовать p <0,05 в качестве критерия (при условии, что тест имеет правильный размер). Или 1%, если р <0,01, что угодно. Указание этой связи может быть полезным для некоторых читателей.
говорит амеба: восстанови Монику

1
@amoeba Спасибо, это хорошая идея. Я постараюсь сделать это позже.
mkt - Восстановить Монику

2

Вы должны изучить таблицу в https://en.wikipedia.org/wiki/Confusion_matrix . Обратите внимание, что FPR расположен вертикально, а FDR - горизонтально.

  • FP происходит, если ваша нулевая гипотеза верна, но вы отвергаете ее
  • ФД случается, если вы предсказываете что-то значительное, но не должны

Я знаю это, но я особенно заинтересован в сравнении, например, если бы вы могли помочь объяснить эту концепцию с помощью некоторых чисел и визуализации для поддержки ваших чисел, которые были бы очень интересны.
慕 慕
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.