ПРЕДИСЛОВИЕ: Меня не волнуют преимущества использования отсечки или нет, или как выбрать отсечение. Мой вопрос чисто математический и из любопытства.
Логистическая регрессия моделирует апостериорную условную вероятность класса A по сравнению с классом B, и она соответствует гиперплоскости, где апостериорные условные вероятности равны. Таким образом, в теории я понял, что точка классификации 0,5 минимизирует общее количество ошибок независимо от установленного баланса, поскольку она моделирует апостериорную вероятность (при условии, что вы постоянно сталкиваетесь с одним и тем же классовым соотношением).
В моем примере из реальной жизни я получаю очень низкую точность, используя P> 0,5 в качестве моей классифицирующей отсечки (точность около 51%). Однако, когда я посмотрел на AUC, он выше 0,99. Поэтому я посмотрел на некоторые другие значения отсечения и обнаружил, что P> 0,6 дал мне 98% точности (90% для меньшего класса и 99% для большего класса) - только 2% случаев были неправильно классифицированы.
Классы сильно разбалансированы (1: 9), и это проблема большого размера. Однако я распределил классы поровну для каждого набора перекрестной проверки, чтобы не было разницы между балансом классов между подбором модели и последующим прогнозированием. Я также попытался использовать те же данные из модели и прогнозов, и возникла та же проблема.
Меня интересует причина, по которой 0.5 не минимизирует ошибки, я подумал, что это будет сделано специально, если модель будет соответствовать минимальным потерям в перекрестной энтропии.
У кого-нибудь есть отзывы о том, почему это происходит? Это связано с добавлением наказания, может кто-нибудь объяснить, что происходит, если так?