Хотя эти два статистических показателя, вероятно, будут коррелировать, они измеряют различные качества классификатора.
AUROC
Площадь под кривой (AUC) равна вероятности того, что классификатор оценит случайно выбранный положительный экземпляр выше, чем случайно выбранный отрицательный пример. Он измеряет умение классификаторов ранжировать набор шаблонов в соответствии со степенью их принадлежности к положительному классу, но без фактического присвоения шаблонов классам.
Общая точность также зависит от способности классификатора ранжировать шаблоны, а также от его способности выбирать пороговое значение в ранжировании, используемом для назначения шаблонов положительному классу, если он выше порога, и отрицательному классу, если он ниже.
Таким образом, классификатор с более высокой статистикой AUROC (при прочих равных условиях), вероятно, также будет иметь более высокую общую точность, поскольку ранжирование шаблонов (которое измеряет AUROC) выгодно как для AUROC, так и для общей точности. Однако, если один классификатор ранжирует шаблоны хорошо, но плохо выбирает порог, он может иметь высокий AUROC, но общую точность плохую.
Практическое использование
На практике мне нравится собирать общую точность, AUROC и, если классификатор оценивает вероятность членства в классе, перекрестную энтропию или прогнозную информацию. Затем у меня есть метрика, которая измеряет ее грубую способность выполнять жесткую классификацию (при условии, что ложноположительные и ложноотрицательные затраты на ошибочную классификацию равны, а частоты классов в выборке такие же, как и при оперативном использовании - большое предположение!), метрика, которая измеряет способность ранжировать шаблоны, и метрика, которая измеряет, насколько хорошо ранжирование откалибровано как вероятность.
Для многих задач операционная ошибочная классификация неизвестна или переменна, или частоты рабочего класса отличаются от таковых в обучающей выборке или являются переменными. В этом случае общая точность часто довольно бессмысленна, и AUROC является лучшим индикатором производительности, и в идеале нам нужен классификатор, который выводит хорошо откалиброванные вероятности, чтобы мы могли компенсировать эти проблемы при оперативном использовании. По существу, какой показатель важен, зависит от проблемы, которую мы пытаемся решить.