Почему AUC = 1, даже классификатор неправильно классифицировал половину выборок?


20

Я использую классификатор, который возвращает вероятности. Для расчета AUC я использую pROC R-пакет. Вероятности выхода из классификатора:

probs=c(0.9865780,
0.9996340,
0.9516880,
0.9337157,
0.9778576,
0.8140116,
0.8971550,
0.8967585,
0.6322902,
0.7497237)

probsпоказывает вероятность быть в классе «1». Как показано, классификатор классифицировал все образцы в классе «1».

Истинный вектор метки:

truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0)

Как показано, классификатор ошибочно классифицировал 5 выборок. Но АУК это:

pROC::auc(truel, probs)
Area under the curve: 1

Не могли бы вы объяснить мне, почему это происходит?


Ответы:


21

AUC - это мера способности ранжировать примеры в соответствии с вероятностью членства в классе. Таким образом, если все вероятности выше 0,5, у вас все еще может быть AUC, равный единице, если все положительные закономерности имеют более высокие вероятности, чем все отрицательные. В этом случае будет порог принятия решения, который выше, чем 0,5, что даст нулевую частоту ошибок. Обратите внимание, что, поскольку AUC измеряет только ранжирование вероятностей, он не сообщает, хорошо ли откалиброваны вероятности (например, нет систематического смещения), если калибровка вероятностей важна, посмотрите на метрику кросс-энтропии.


21

Другие ответы объясняют, что происходит, но я подумал, что картина может быть хорошей.

Вы можете видеть, что классы идеально разделены, поэтому AUC равен 1, но пороговое значение в 1/2 приведет к ошибочной классификации 50%.

Probs


21

Образцы не были "неправильно классифицированы" вообще. Эти 0примеры ранжируются строго ниже 1примеров. AUROC делает именно то, для чего он определен, то есть измеряет вероятность того, что случайно выбранный 1рейтинг выше, чем случайно выбранный 0. В этом примере это всегда так, поэтому это событие с вероятностью 1.

У Тома Фосетта есть отличная пояснительная статья о кривых ROC. Я бы предложил начать там.

Том Фосетт «Введение в анализ РПЦ». Письма Распознавания Образца. 2005.


3
+1 Бумага Фосетта - действительно очень хорошее место для начала.
Дикран Marsupial
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.