Как интерпретировать кривую ROC?

14

Я применил логистическую регрессию к своим данным в SAS, и вот кривая ROC и таблица классификации.

введите описание изображения здесь

Я доволен цифрами в таблице классификации, но не совсем уверен, что показывают кривая Рока и область под ней. Любое объяснение будет с благодарностью.

— Гюнал
источник

22

Когда вы делаете логистическую регрессию, вам дают два класса, закодированные как и . Теперь вы вычисляете вероятности того, что с учетом некоторых объяснительных переменных человек принадлежит к классу, закодированному как . Если вы сейчас выберите порог вероятности и классифицируете всех людей с вероятностью, превышающей этот порог, как класс и ниже как $1$ $0$ $1$ $1$ $0$ в большинстве случаев вы допустите некоторые ошибки, потому что обычно две группы не могут быть точно различены. Для этого порога вы можете теперь вычислить свои ошибки и так называемую чувствительность и специфичность. Если вы сделаете это для многих порогов, вы можете построить кривую ROC, построив график чувствительности к 1-специфичности для многих возможных порогов. Область под кривой вступает в игру, если вы хотите сравнить различные методы, которые пытаются различить два класса, например, дискриминантный анализ или пробитную модель. Вы можете построить кривую ROC для всех этих моделей, и лучшую модель можно рассматривать как кривую с наибольшей площадью под кривой.

Если вам нужно получить более глубокое понимание, вы также можете прочитать ответ на другой вопрос о кривых ROC, нажав здесь.

— случайный парень
источник

Чем область под кривой ROC отличается от правильной скорости в таблице классификации?

— Гюнал

2

Таблица показывает только правильное и неправильное значение для одного порога. Тем не менее, кривая AUROC является мерой полного метода классификации и является правильной и неправильной для многих различных порогов.

— random_guy

Рад это слышать!

— random_guy

6

AUC в основном просто говорит вам, как часто случайный отбор из ваших предсказанных вероятностей ответа на ваших данных с 1 маркировкой будет больше, чем случайный отбор с ваших предсказанных вероятностей ответов от ваших данных с 0 метками.

— jlemaitre
источник

6

Модель логистической регрессии является методом прямой оценки вероятности. Классификация не должна играть никакой роли в ее использовании. Любая классификация, не основанная на оценке полезности (функция потерь / затрат) по отдельным предметам, является неуместной, за исключением очень особых чрезвычайных ситуаций. Кривая ROC здесь не помогает; ни чувствительность, ни специфичность, которые, как и общая точность классификации, не являются ненадлежащими правилами оценки точности, оптимизированными фиктивной моделью, не соответствующей оценке максимального правдоподобия.

$c$ $15p$ $Y$ $p$ $\leq 0.05$

— Фрэнк Харрелл
источник

@Frank Harrell: Не могли бы вы рассказать о расчете относительно перехвата, а также комментарии относительно допустимой погрешности. Благодарность!

— Джульет

@FrankHarrell, советуете ли вы, что нам нужны наблюдения не менее 15p, если мы в конечном итоге будем выполнять регрессию гребня для калибровки модели? Насколько я понимаю, мы заменим р на эффективную размерность.

— Lepidopterist

Правильно, и я бы сказал, что вы используете штрафы, такие как квадратичный (ребристый) штраф, чтобы оценить параметры, что приводит к лучшей калибровке

— Фрэнк Харрелл

4

Я не являюсь автором этого блога, и я нашел этот блог чрезвычайно полезным: http://fouryears.eu/2011/10/12/roc-area-under-the-curve-explained

Применяя это объяснение к вашим данным, средний положительный пример имеет около 10% отрицательных примеров, набранных выше, чем он.

— Aerin
источник