Ответы:
Когда вы делаете логистическую регрессию, вам дают два класса, закодированные как и 0 . Теперь вы вычисляете вероятности того, что с учетом некоторых объяснительных переменных человек принадлежит к классу, закодированному как 1 . Если вы сейчас выберите порог вероятности и классифицируете всех людей с вероятностью, превышающей этот порог, как класс 1 и ниже как 0в большинстве случаев вы допустите некоторые ошибки, потому что обычно две группы не могут быть точно различены. Для этого порога вы можете теперь вычислить свои ошибки и так называемую чувствительность и специфичность. Если вы сделаете это для многих порогов, вы можете построить кривую ROC, построив график чувствительности к 1-специфичности для многих возможных порогов. Область под кривой вступает в игру, если вы хотите сравнить различные методы, которые пытаются различить два класса, например, дискриминантный анализ или пробитную модель. Вы можете построить кривую ROC для всех этих моделей, и лучшую модель можно рассматривать как кривую с наибольшей площадью под кривой.
Если вам нужно получить более глубокое понимание, вы также можете прочитать ответ на другой вопрос о кривых ROC, нажав здесь.
Модель логистической регрессии является методом прямой оценки вероятности. Классификация не должна играть никакой роли в ее использовании. Любая классификация, не основанная на оценке полезности (функция потерь / затрат) по отдельным предметам, является неуместной, за исключением очень особых чрезвычайных ситуаций. Кривая ROC здесь не помогает; ни чувствительность, ни специфичность, которые, как и общая точность классификации, не являются ненадлежащими правилами оценки точности, оптимизированными фиктивной моделью, не соответствующей оценке максимального правдоподобия.
Я не являюсь автором этого блога, и я нашел этот блог чрезвычайно полезным: http://fouryears.eu/2011/10/12/roc-area-under-the-curve-explained
Применяя это объяснение к вашим данным, средний положительный пример имеет около 10% отрицательных примеров, набранных выше, чем он.