ROC против кривых точности и отзыва

159

Я понимаю формальные различия между ними, и я хочу знать, когда более уместно использовать одно против другого.

Всегда ли они дают дополнительное представление о производительности данной системы классификации / обнаружения?
Когда разумно представить их обоих, скажем, в газете? вместо одного?
Существуют ли альтернативные (возможно, более современные) дескрипторы, которые отражают соответствующие аспекты как ROC, так и точного отзыва для системы классификации?

Меня интересуют аргументы как для бинарных, так и для мультиклассовых случаев (например, как один против всех).

machine-learning roc precision-recall

Этот документ просто должен появиться в контексте: biostat.wisc.edu/~page/rocpr.pdf

Я мог бы использовать это как «пробку», чтобы упомянуть здесь свой тезис ... В Leitner (2012) я предложил метрику «F-измеренная средняя точность» (FAP) (см. Стр. 65) в качестве среднего гармонического значения F- мера и средняя точность. Т.е. комбинация метрики оценки набора с метрикой ранжированной оценки. В диссертации я показал, что максимизация оценки FAP на тренировочном наборе может быть использована для определения наилучшего уровня отсечения для разграничения иным образом неограниченной задачи поиска информации (с использованием сотен прогонов BioCreative!).

— фн

Вот еще одно хорошее обсуждение кривой AUC-ROC и PR для несбалансированного набора данных. Он имеет тот же вывод, что и то, что сказал дсимча. Когда вас больше волнует редкий случай, вы должны использовать PR.

— YC

Ответы:

207

Ключевое отличие состоит в том, что кривые ROC будут одинаковыми независимо от базовой вероятности, но на практике кривые PR могут быть более полезными для проблем типа иголки в стоге сена или проблем, когда «положительный» класс более интересен, чем отрицательный класс.

Чтобы показать это, сначала давайте начнем с очень хорошего способа определения точности, отзыва и специфики. Предположим , у вас есть «положительный» класс под названием 1 и «негативный» класс под названием 0. ваша оценка истинного класса этикетки . Тогда: Главное, на что нужно обратить внимание, это то, что чувствительность / отзыв и специфичность , которые составляют кривую ROC, являются вероятностями, обусловленными истинной меткой класса . Следовательно, они будут одинаковыми независимо от того, что . Точность - это вероятность, обусловленная $\hat{Y}$ $Y$

\begin{aligned} Precision & = P (Y = 1 | \hat{Y} = 1) \\ Recall = Sensitivity & = P (\hat{Y} = 1 | Y = 1) \\ Specificity & = P (\hat{Y} = 0 | Y = 0) \end{aligned}

$\begin{aligned} &\text{Precision} &= P(Y = 1 | \hat{Y} = 1) \\ &\text{Recall} = \text{Sensitivity} &= P(\hat{Y} = 1 | Y = 1) \\ &\text{Specificity} &= P(\hat{Y} = 0 | Y = 0) \end{aligned}$

P (Y = 1)

$P(Y = 1)$ Ваша оценка метки класса будет, таким образом, отличаться, если вы попробуете свой классификатор в разных группах населения с разным базовым уровнем . Однако на практике это может быть более полезным, если вам небезразлична только одна популяция с известной вероятностью происхождения, а «положительный» класс гораздо интереснее, чем «отрицательный». (Точность IIRC популярна в области поиска документов, где это имеет место.) Это потому, что это прямо отвечает на вопрос: «Какова вероятность того, что это настоящий удар, учитывая, что мой классификатор говорит, что это так?».

P (Y = 1)

$P(Y = 1)$

Интересно, что по теореме Байеса вы можете отработать случаи, когда специфичность может быть очень высокой, а точность - очень низкой одновременно. Все, что вам нужно сделать, это предположить, что очень близко к нулю. На практике я разработал несколько классификаторов с этой характеристикой производительности при поиске игл в стогах сена последовательности ДНК. $P(Y = 1)$

ИМХО, при написании статьи вы должны указать, какая кривая отвечает на вопрос, на который вы хотите получить ответ (или тот, который более предпочтителен для вашего метода, если вы циничны). Если ваш вопрос звучит так: «Насколько значим положительный результат от моего классификатора с учетом базовых вероятностей моей проблемы ?», Используйте кривую PR. Если ваш вопрос: «Насколько можно ожидать, что этот классификатор будет работать в целом при различных вероятностях базовой линии ?», Выберите кривую ROC.

— dsimcha
источник

это было фантастическое объяснение!

— Амелио Васкес-Рейна

+1, отличное понимание вероятностных интерпретаций точности, отзыва и специфики.

— Жубарб

Какой ответ! Жаль, что я не мог дважды поднять голос.

— Лондонский парень

На всякий случай это было не ясно из моего предыдущего комментария: этот ответ неправильный , как и кривые ROC, которые используют специфичность. См., Например, Введение в анализ ROC - который также намекает на их недостаток, как описано в моем ответе: «Во многих доменах реального мира преобладает большое количество отрицательных случаев, поэтому производительность в крайней левой части графика ROC становится интереснее."

— фн

+0,5 @fnl. Хотя это не является явно неправильным, я думаю, что в ответе отсутствует смысл вопроса; вероятностное толкование очень приветствуется, но оно не имеет смысла в отношении основного вопроса. Кроме того, я не могу придумать общий реалистичный пример, когда вопрос: « Насколько значим положительный результат от моего классификатора с учетом базовых вероятностей моей проблемы? » Неприменим. « Общая » перспектива ROC-AUC слишком размыта. (Само собой разумеется, что ни один из них не должен использоваться по номиналу для построения окончательной модели)

— usεr11852

Вот выводы из статьи Дэвиса и Гоадрича, объясняющие отношения между РПЦ и PR-пространством. Они отвечают на первые два вопроса:

Во-первых, для любого набора данных кривая ROC и кривая PR для данного алгоритма содержат одинаковые точки. Эта эквивалентность приводит к удивительной теореме о том, что кривая доминирует в пространстве ROC тогда и только тогда, когда она доминирует в пространстве PR. Во-вторых, в качестве следствия теоремы мы показываем существование пространства PR, аналогичного выпуклой оболочке в пространстве ROC, которую мы называем достижимой кривой PR. Примечательно, что при построении достижимой кривой PR отбрасываются точно такие же точки, которые пропущены выпуклой оболочкой в пространстве ROC. Следовательно, мы можем эффективно рассчитать достижимую кривую PR. [...] Наконец, мы показываем, что алгоритм, который оптимизирует область под кривой ROC, не гарантирует оптимизацию области под кривой PR.

Другими словами, в принципе, РПЦ и PR одинаково подходят для сравнения результатов. Но для примера случая результата 20 попаданий и пропусков 1980 года они показывают, что различия могут быть довольно резкими, как показано на рисунках 11 и 12.

Рисунки 11 и 12 от Дэвиса и Гоадрича

Результат / кривая (I) описывает результат, в котором 10 из 20 попаданий входят в первую десятку, а остальные 10 попаданий затем равномерно распределяются по первым 1500 разрядам. Resut (II) описывает результат, где 20 попаданий равномерно распределены по первым 500 (из 2000) рангов. Таким образом, в тех случаях, когда предпочтительна «форма» результата (I), это предпочтение четко различимо в PR-пространстве, в то время как AUC ROC двух результатов почти одинаковы.

— фн
источник

Эти графики не отражают (дискретизируют) описанную ситуацию, которая показывает шаги на кривых ROC каждый раз, когда встречается попадание (после первых 10 для кривой I). ROCCH будет выглядеть так с выпуклой оболочкой. Аналогично для PR, Precision будет увеличивать отметку каждый раз при обнаружении попадания, а затем затухать во время промахов, начиная с (0,0) для ничего не предсказанного (выше порогового значения), если для Precision было определено значение 0 в этой точке (0 / 0) - кривая II, как показано, является максимальной точностью, а не точностью на каждом пороговом (и, следовательно, повторном) уровне.

— Дэвид МВТ Пауэрс

Это на самом деле рис. 7 в той версии статьи, которую я нашел. Бумага фактически интерполирует кривую PR, используя кривую ROC. Обратите внимание, что результат доминирования основывается на предположении, что отзыв отличен от нуля, что не имеет места, пока не будет найдено первое попадание, а точность (как определено в статье) формально не определена (0/0) до тех пор.

— Дэвид М.

Да, проблема заключается в отсутствии правильной дискретизации (хотя такой график может возникнуть при усреднении по большому количеству прогонов). Однако результат статьи менее значим, чем вы можете ожидать из-за проблем с неопределенностью, и не настолько значим, как вы ожидаете, когда просто понимаете результат с точки зрения масштабирования. Я никогда не использовал бы PR, но я иногда масштабировал бы в ROC или эквивалентно использовал бы PN.

— Дэвид М.

Во-первых, графики на рис. 7 (11 против 12) не имеют значения - они не являются ступенчатыми графиками для обученной системы (поскольку положительные примеры превышают порог снижения), но соответствуют предельным средним значениям, когда число различных систем приближается к бесконечности. Second Precision и Recall были предназначены для веб-поиска, и оба полностью игнорируют (предполагаемое большое) количество истинных негативов (Prec = TP / PP и Rec = TP / RP). В-третьих, график точности и отзыва действительно показывает только взаимное смещение (1 / PP) и взаимную распространенность (1 / RP) для определенного уровня TP (если вы остановили веб-поиск при правильных попаданиях TP).

— Дэвид МВТ Пауэрс

Итак, после устранения всех моих сомнений, я думаю, что необходимо сообщить читателям, что я считаю, что ответ @DavidMWPowers должен быть предпочтительнее моего.

— фн

Существует много недоразумений по поводу оценки. Частично это происходит из-за подхода машинного обучения, который заключается в попытке оптимизировать алгоритмы для наборов данных без реального интереса к данным.

В медицинском контексте речь идет о реальных результатах - например, сколько людей вы спасете от смерти. В медицинском контексте Чувствительность (TPR) используется, чтобы увидеть, сколько из положительных случаев правильно отобрано (минимизируя долю, пропущенную как ложные отрицания = FNR), в то время как Специфичность (TNR) используется, чтобы увидеть, сколько из отрицательных случаев правильно исключено (минимизация доли, найденной как ложное срабатывание = FPR). Некоторые заболевания имеют распространенность один на миллион. Таким образом, если вы всегда прогнозируете отрицательное, у вас есть точность 0.999999 - это достигается простым учеником ZeroR, который просто предсказывает максимальный класс. Если мы рассмотрим Recall и Precision для прогнозирования того, что вы свободны от болезней, то у нас Recall = 1 и Precision = 0.999999 для ZeroR. Конечно, если вы перевернете + ve и -ve и попытаетесь предсказать, что у человека заболевание с ZeroR, вы получите Recall = 0 и Precision = undef (поскольку вы даже не делали положительного прогноза, но часто люди определяют Precision как 0 в этом кейс). Обратите внимание, что Recall (+ ve Recall) и Inverse Recall (-ve Recall), а также соответствующие TPR, FPR, TNR и FNR всегда определены, потому что мы решаем только проблему, потому что мы знаем, что есть два класса, которые нужно различать, и мы намеренно предоставляем примеры каждого.

Обратите внимание на огромную разницу между отсутствием рака в медицинском контексте (кто-то умирает, а вам предъявляют иск) по сравнению с отсутствием бумаги в веб-поиске (велика вероятность, что кто-то из других будет ссылаться на нее, если это важно). В обоих случаях эти ошибки характеризуются как ложные негативы, по сравнению с большой совокупностью негативов. В случае с веб-поиском мы автоматически получим большое количество истинных негативов просто потому, что показываем только небольшое количество результатов (например, 10 или 100), и отсутствие показа не должно восприниматься как негативный прогноз (это могло быть 101 ), тогда как в тесте на рак у нас есть результат для каждого человека, и в отличие от веб-поиска мы активно контролируем уровень ложного отрицания (уровень).

Таким образом, ROC исследует компромисс между истинными позитивами (против ложных негативов как пропорции реальных позитивов) и ложными позитивами (по сравнению с истинными негативами как пропорцией реальных негативов). Это эквивалентно сравнению чувствительности (+ ve Recall) и специфичности (-ve Recall). Существует также график PN, который выглядит так же, где мы строим график TP против FP, а не TPR против FPR, но поскольку мы строим квадрат графика, единственная разница - это числа, которые мы наносим на шкалы. Они связаны с константами TPR = TP / RP, FPR = TP / RN, где RP = TP + FN и RN = FN + FP - количество действительных положительных и действительных отрицательных значений в наборе данных и, наоборот, смещения PP = TP + FP и PN. = TN + FN - количество раз, когда мы прогнозируем положительный или прогнозируемый отрицательный. Обратите внимание, что мы называем rp = RP / N, а rn = RN / N - распространенность положительного ответа. отрицательный и pp = PP / N и rp = RP / N смещение к положительному, соответственно.

Если мы суммируем или усредняем Чувствительность и Специфичность или смотрим на Площадь под Кривой компромисса (эквивалентно ROC, просто меняющему ось X), мы получим тот же результат, если поменять местами какой класс + ve и + ve. Это НЕ верно для Precision and Recall (как показано выше с прогнозом заболевания ZeroR). Этот произвол является основным недостатком графиков точности, отзыва и их средних значений (будь то арифметическое, геометрическое или гармоническое) и графиков компромиссов.

Графики PR, PN, ROC, LIFT и другие строятся по мере изменения параметров системы. Это классическое построение точек для каждой отдельной обученной системы, часто с порогом, который увеличивается или уменьшается, чтобы изменить точку, в которой экземпляр классифицируется как положительный или отрицательный.

Иногда построенные точки могут быть усреднены по (изменяющим параметрам / порогам / алгоритмам) наборам систем, обученных одинаковым образом (но с использованием разных случайных чисел, выборок или порядков). Это теоретические конструкции, которые говорят нам о среднем поведении систем, а не об их производительности по конкретной проблеме. Диаграммы компромисса предназначены для того, чтобы помочь нам выбрать правильную рабочую точку для конкретного приложения (набор данных и подход), и именно здесь ROC получает свое имя (Операционные характеристики приемника направлены на максимальное увеличение получаемой информации в смысле информированности).

Давайте рассмотрим, против чего можно строить Recall, TPR или TP.

TP vs FP (PN) - выглядит точно так же, как график ROC, только с разными номерами

TPR против FPR (ROC) - TPR против FPR с AUC не изменяется, если +/- инвертированы.

TPR против TNR (alt ROC) - зеркальное отображение ROC как TNR = 1-FPR (TN + FP = RN)

TP против PP (LIFT) - X inc для положительных и отрицательных примеров (нелинейное растяжение)

TPR vs pp (alt LIFT) - выглядит так же, как LIFT, только с разными номерами

TP vs 1 / PP - очень похоже на LIFT (но инвертировано с нелинейным растяжением)

TPR vs 1 / PP - выглядит так же, как TP vs 1 / PP (разные числа на оси y)

TP против TP / PP - аналогично, но с расширением оси X (TP = X -> TP = X * TP)

TPR vs TP / PP - выглядит одинаково, но с разными номерами на осях

Последний - Напомним против Точности!

Обратите внимание, что для этих графиков любые кривые, которые доминируют над другими кривыми (лучше или, по крайней мере, так же высоки во всех точках), все еще будут доминировать после этих преобразований. Поскольку доминирование означает «по меньшей мере, такой же высокий» в каждой точке, более высокая кривая также имеет «по меньшей мере, такую же высокую» площадь под кривой (AUC), поскольку она также включает в себя область между кривыми. Обратное не верно: если кривые пересекаются, а не трогать, нет доминирования, но один ППК еще может быть больше , чем другие.

Все преобразования выполняют отражение и / или масштабирование различными (нелинейными) способами определенной части графика ROC или PN. Тем не менее, только ROC имеет хорошую интерпретацию Area под кривой (вероятность того, что положительный рейтинг выше, чем отрицательный - статистика Манна-Уитни U) и Distance выше кривой (вероятность того, что обоснованное решение принято, а не угадано - Youden J статистика как дихотомическая форма информированности).

Как правило, нет необходимости использовать кривую компромисса PR, и вы можете просто увеличить кривую ROC, если требуется детализация. Кривая ROC обладает уникальным свойством того, что диагональ (TPR = FPR) представляет вероятность того, что расстояние над линией шанса (DAC) представляет информацию или вероятность принятия обоснованного решения, а площадь под кривой (AUC) представляет ранжирование или вероятность правильного попарного ранжирования. Эти результаты не верны для кривой PR, и AUC искажается при более высоком отзыве или TPR, как объяснено выше. PR АУК быть больше ничего не подразумевается, что ROC AUC больше и, следовательно, не подразумевает повышения ранжирования (вероятность правильного прогнозирования ранговых +/- пар - то есть как часто он прогнозирует + вес выше -вес) и не подразумевает повышения информированности (вероятность информированного прогноза, а не случайное предположение - то есть как часто он знает, что делает, когда делает прогноз).

Извините - нет графиков! Если кто-то захочет добавить графики для иллюстрации приведенных выше преобразований, это было бы здорово! У меня есть довольно много в моих статьях о ROC, LIFT, BIRD, Kappa, F-measure, Informedness и т. Д., Но они представлены не совсем так, хотя есть примеры ROC против LIFT против BIRD против RP в https : //arxiv.org/pdf/1505.00401.pdf

ОБНОВЛЕНИЕ: Чтобы не пытаться дать полные объяснения в слишком длинных ответах или комментариях, вот некоторые из моих работ, «раскрывающих» проблему с компромиссами Precision vs Recall inc. F1, получение информации, а затем «изучение» отношений с ROC, Kappa, Significance, DeltaP, AUC и т. Д. Это проблема, с которой столкнулся один из моих учеников 20 лет назад (Entwisle), и с тех пор многие другие нашли этот реальный пример их собственные, где было эмпирическое доказательство того, что подход R / P / F / A послал учащемуся НЕПРАВИЛЬНЫЙ путь, в то время как Информированность (или Каппа или Корреляция в соответствующих случаях) направила их ПРАВИЛЬНЫМ путем - теперь через десятки областей. Есть также много хороших и актуальных работ других авторов по Kappa и ROC, но когда вы используете Kappas против ROC AUC или ROC Height (Informedness or Youden ') s J) разъясняется в работах, которые я перечисляю в 2012 году (в них цитируются многие важные работы других авторов). В статье 2003 Bookmaker впервые выведена формула для информированности для случая мультикласса. В статье 2013 года приводится многоклассовая версия Adaboost, адаптированная для оптимизации Informedness (со ссылками на измененную Weka, которая ее размещает и запускает).

Рекомендации

1998 Настоящее использование статистики в оценке парсеров НЛП. J Entwisle, DMW Powers - Труды совместных конференций по новым методам в языковой обработке: 215-224 https://dl.acm.org/citation.cfm?id=1603935 Статьи цитируются 15

2003 Recall & Precision против The Bookmaker. DMW Powers - Международная конференция по когнитивной науке: 529-534 http://dspace2.flinders.edu.au/xmlui/handle/2328/27159 Цитируется 46

Оценка 2011 года: от точности, отзыва и F-меры до ROC, информированности, заметности и корреляции. DMW Powers - Journal of Machine Learning Technology 2 (1): 37-63. http://dspace2.flinders.edu.au/xmlui/handle/2328/27165 Цитируется 1749

2012 проблема с каппой. Полномочия DMW - Материалы 13-й конференции Европейского ACL: 345-355 https://dl.acm.org/citation.cfm?id=2380859 Статьи цитируются 63

ROC-ConCert 2012: измерение согласованности и достоверности на основе ROC. DMW Powers - Весенний конгресс по технике и технологиям (S-CET) 2: 238-241 http://www.academia.edu/download/31939951/201203-SCET30795-ROC-ConCert-PID1124774.pdf Цитируется 5

ADABOOK & MULTIBOOK 2013: Адаптивное повышение с коррекцией шанса. DMW Powers - Международная конференция ICINCO по информатике в сфере управления, автоматизации и робототехники http://www.academia.edu/download/31947210/201309-AdaBook-ICINCO-SCITE-Harvard-2upcor_poster.pdf

https://www.dropbox.com/s/artzz1l3vozb6c4/weka.jar (goes into Java Class Path)
https://www.dropbox.com/s/dqws9ixew3egraj/wekagui   (GUI start script for Unix)
https://www.dropbox.com/s/4j3fwx997kq2xcq/wekagui.bat  (GUI shortcut on Windows)

Цитируется 4

— Дэвид М.В. Пауэрс
источник

> «область под кривой представляет ранжирование или вероятность правильного попарного ранжирования», я полагаю, именно в этом мы не согласны - РПЦ демонстрирует только качество ранжирования на графике . Тем не менее, с AUC PR является одно число, которое сразу говорит мне, какой рейтинг предпочтительнее (то есть, тот результат I предпочтительнее, чем результат II). AUC ROC не имеет этого свойства.

— фн

Результат доминирования fnl цитирует означает, что при определении, если одна кривая доминирует в ROC, она имеет место в PR и наоборот, и это означает, что она также имеет более высокую площадь в обоих, и, таким образом, нет качественной разницы между ROC и PR AUC. Цитата о ранжированности (Mann-Whitney U) является хорошо установленным количественным результатом вероятности (частью теста значимости), который был рекомендован совершенно независимо от ROC, но позже было обнаружено, что это ROC AUC. Аналогичным образом, информация была первоначально определена независимо, а затем доказано, что она соответствует высоте рабочей точки РПЦ. У пиара таких результатов нет.

— Дэвид МВТ Пауэрс

Как я уже говорил ранее, это просто вопрос масштабирования в условиях доминирования («намного больше», потому что умножено на большое число, как я объясняю подробно), но в условиях отсутствия доминирования, AUC PR вводит в заблуждение, а AUC ROC является единственным это имеет подходящую вероятностную интерпретацию (Mann-Whitney U или Rankedness), с единичным регистром рабочей точки, соответствующим Gini (или эквивалентно J или Informedness Йодена, после масштабирования).

— Дэвид МВТ Пауэрс

Если мы рассмотрим простоту единой рабочей точки (SOC) AUC, то коэффициент Джини = AUC = (TP / RP + TN / RN) / 2 и Informedness = Youden J = TP / RP + TN / RN - 1 = чувствительность + специфичность -1 = TPR + TNF -1 = Recall + Inverse Recall - 1 и т. Д. Максимизация либо эквивалентна, но последняя является вероятностью обоснованного решения (намеренно неправильное, если -ve). Если RN и TN оба уходят в бесконечность с TN >> FP, то TN / RN -> 1 и отменяются, поэтому Informedness = Recall в случаях, которые вы цитируете. Если вместо этого огромный класс - RP и TP >> FN, то TP / RP -> 1 и Informedness = Inverse Recall. См. Ссылки

— Дэвид МВТ Пауэрс

Это очень полезный ответ Дэвида Пауэрса. Но простите мое невежество, когда вы говорите: «Как правило, нет необходимости использовать кривую PR-компромисса, и вы можете просто увеличить масштаб кривой ROC, если требуются подробности». Как именно я могу это сделать, и не могли бы вы дать больше? подробно о том, что вы имеете в виду? Означает ли это, что я могу как-то использовать кривую ROC в сильно несбалансированном случае? «Придание FPR или TPR большего веса приведет к получению оценки AUC ROC с большей разницей в результатах, отличная оценка!» Как мне тогда сделать это с моей РПЦ?

— Кристофер Джон