Недавно я узнал о правильных правилах оценки вероятностных классификаторов. Несколько потоков на этом сайте подчеркивали, что точность является неправильным правилом оценки и не должна использоваться для оценки качества прогнозов, генерируемых вероятностной моделью, такой как логистическая регрессия.

Тем не менее, довольно много научных статей, которые я читал, приводили потерю из-за неправильной классификации в качестве примера (нестрого) правильного правила оценки в бинарной классификации. Самое ясное объяснение, которое я смог найти, было в этой статье , внизу страницы 7. Насколько я понимаю, минимизация потерь при неправильной классификации эквивалентна максимизации точности, а уравнения в статье имеют смысл интуитивно.

Например: используя обозначения статьи, если истинная условная вероятность (с учетом некоторого вектора признаков x ) интересующего класса составляет η = 0,7, любой прогноз q > 0,5 будет иметь ожидаемые потери R (η | q ) = 0,7 (0) + 0,3 (1) = 0,3, и любой q 0,5 будет иметь ожидаемые потери 0,7. Следовательно, функция потерь будет минимизирована при q = η = 0,7 и, следовательно, правильной; обобщение на весь диапазон истинных условных вероятностей и прогнозов кажется достаточно простым. $\leq$

Если предположить, что приведенные выше расчеты и утверждения верны, недостатки неуникального минимума и все прогнозы выше 0,5, разделяющие один и тот же минимальный ожидаемый убыток, очевидны. Я до сих пор не вижу причин использовать точность по сравнению с традиционными альтернативами, такими как оценка по журналу, оценка по Бриеру и т. Д. Однако правильно ли говорить, что точность - это правильное правило оценки при оценке вероятностных моделей в двоичном параметре, или я делаю ошибка - или в моем понимании потери классификации, или в приравнивании ее к точности?

probability accuracy scoring-rules

— Zyzzva
источник

TL; DR

Точность является неправильным правилом подсчета очков. Не используйте это.

Немного длиннее версия

На самом деле, точность даже не является правилом оценки. Поэтому вопрос о том, является ли он (строго) правильным, является ошибкой категории. Самое большее, что мы можем сказать, это то, что при дополнительных допущениях точность соответствует правилу подсчета очков, которое является неправильным, прерывистым и вводящим в заблуждение. (Не используйте это.)

Ваше замешательство

Ваша путаница проистекает из того факта, что потеря неправильной классификации согласно цитируемой вами статье также не является правилом оценки.

Детали: правила оценки и оценки классификации

Давайте исправим терминологию. Нас интересует двоичный результат , и мы имеем вероятностный прогноз . Мы знаем, что , но наша модель может знать или не знать это. $y\in\{0,1\}$ $\widehat{q} = \widehat{P}(Y=1)\in(0,1)$ $P(Y=1)=\eta>0.5$ $\widehat{q}$

Правило скоринга является отображением , которое принимает вероятностный прогноз и исход к потере, $\widehat{q}$ $y$

s : (\hat{q}, y) \mapsto s (\hat{q}, y) .

$s\colon (\widehat{q},y) \mapsto s(\widehat{q},y).$

$s$ является правильным , если он оптимизирован в ожидании от . ( «Оптимизированный» обычно означает «сведено к минимуму», но некоторые авторы флип признаки и пытаются максимизировать правило подсчета очков.) является строго собственно , если он оптимизирован в ожидании только от . $\widehat{q}=\eta$ $s$ $\widehat{q}=\eta$

Как правило, мы будем оценивать по многим прогнозам и соответствующим результатам и среднему чтобы оценить это ожидание. $s$ $\widehat{q}_i$ $y_i$

Теперь, что такое точность ? Точность не принимает вероятностный прогноз в качестве аргумента. Он принимает классификацию $\widehat{y}\in\{0,1\}$ и результат:

a : (\hat{y}, y) \mapsto a (\hat{y}, y) = {\begin{cases} 1, & \hat{y} = y \\ 0, & \hat{y} \neq y . \end{cases}

$a\colon (\widehat{y},y)\mapsto a(\widehat{y},y) = \begin{cases} 1, & \widehat{y}=y \\ 0, & \widehat{y} \neq y. \end{cases}$

Следовательно, точность не является правилом оценки . Это классификационная оценка. (Это термин, который я только что изобрел; не ищите его в литературе.)

Теперь, конечно, мы можем взять вероятностный прогноз, подобный нашему и превратить его в классификацию . Но для этого нам понадобятся дополнительные предположения, упомянутые выше. Например, очень часто используют порог и классифицируют: $\widehat{q}$ $\widehat{y}$ $\theta$

\hat{y} (\hat{q}, θ) := {\begin{cases} 1, & \hat{q} \geq θ \\ 0, & \hat{q} < θ . \end{cases}

$\widehat{y}(\widehat{q},\theta) := \begin{cases} 1, & \widehat{q}\geq \theta \\ 0, & \widehat{q}<\theta. \end{cases}$

Очень распространенное пороговое значение равно . Обратите внимание, что если мы используем этот порог и затем оцениваем точность по многим прогнозам (как указано выше) и соответствующим результатам , то мы приходим именно к потере из-за неправильной классификации согласно Buja et al. Таким образом, ошибочная классификация также является не правилом оценки, а оценочной классификацией. $\theta=0.5$ $\widehat{q}_i$ $y_i$

Если мы возьмем алгоритм классификации, подобный приведенному выше, мы можем превратить оценку классификации в правило оценки. Дело в том, что нам нужны дополнительные предположения классификатора. И эта потеря точности или неправильной классификации или любая другая классификационная оценка, которую мы выбираем, может тогда меньше зависеть от вероятностного прогноза и больше от того, как мы превращаем в классификацию . Таким образом, оптимизация оценки классификации может преследовать красную сельдь, если мы действительно заинтересованы в оценке . $\widehat{q}$ $\widehat{q}$ $\widehat{y}=\widehat{y}(\widehat{q},\theta)$ $\widehat{q}$

Теперь, что неуместно в этих предположениях о правилах подсчета при дополнительных допущениях? Ничего, в данном случае. при неявном максимизирует точность и минимизирует потери от неправильной классификации по всем возможным . Так что в этом случае наши правила подсчета очков под дополнительными допущениями верны. $\widehat{q}=\eta$ $\theta =0.5$ $\widehat{q}\in(0,1)$

Обратите внимание, что для потери точности или неправильной классификации важен только один вопрос: классифицируем ли мы ( ) все как мажоритарный класс или нет? $\widehat{y}$ Если мы это сделаем, точность или потеря классификации будут счастливы. Если нет, то нет. Что важно в этом вопросе, так это то, что он имеет очень слабую связь с качеством . $\widehat{q}$

Следовательно, наши предположения о правилах подсчета под дополнительными допущениями не являются строго правильными, так как любая приведет к такой же классификации классификации. Мы могли бы использовать стандарт , полагать, что класс большинства встречается с и классифицировать все как класс большинства, потому что . Точность высока, но у нас нет стимула улучшать наш до правильного значения . $\widehat{q}\geq\theta$ $\theta=0.5$ $\widehat{q}=0.99$ $\widehat{q}\geq\theta$ $\widehat{q}$ $\eta$

Или мы могли бы провести обширный анализ асимметричных затрат на ошибочную классификацию и решили, что наилучший порог вероятности классификации должен быть . Например, это может произойти, если означает, что вы страдаете от какой-то болезни. Возможно, было бы лучше лечить вас, даже если вы не страдаете от этой болезни ( ), а не наоборот, так что может иметь смысл лечить людей, даже если вероятность предсказания мала (small ) они страдают от этого. Тогда у нас может быть ужасно неправильная модель, которая считает, что класс истинного большинства имеет место только с $\theta =0.2$ $y=1$ $y=0$ $\widehat{q}$ $\widehat{q}=0.25$ - но из-за неправильной классификации мы все равно классифицируем все как этот (предполагаемый) класс меньшинства, потому что опять . Если бы мы это сделали, потеря точности или неправильной классификации заставила бы нас поверить, что мы все делаем правильно, даже если наша прогнозная модель даже не поймет, какой из двух наших классов является мажоритарным. $\widehat{q}\geq\theta$

Следовательно, потеря точности или ошибочной классификации может вводить в заблуждение.

Кроме того, потеря точности и неправильная классификация являются ненадлежащими в соответствии с дополнительными допущениями в более сложных ситуациях, когда результаты не определены. Фрэнк Харрелл в своем сообщении в блоге « Ущерб, вызванный точностью классификации и другими прерывистыми правилами неправильной оценки точности», приводит пример из одной из своих книг, где использование потери точности или ошибочной классификации приведет к неверно определенной модели, поскольку они не оптимизируются с помощью правильного условного предсказания. вероятность.

Другая проблема, связанная с потерями точности и неправильной классификации, заключается в том, что они являются прерывистыми в зависимости от порога . Фрэнк Харрелл тоже занимается этим. $\theta$

Дополнительную информацию можно найти в разделе Почему точность не является наилучшей мерой для оценки моделей классификации? ,

Суть

Не используйте точность. Ни потеря классификации.

Ниппик: «строгий» против «строго»

Должны ли мы говорить о «строгих» правильных правилах оценки или о «строго» правильных правилах оценки? «Строгий» изменяет «правильное», а не «правило подсчета очков». (Существуют «правильные правила оценки» и «строго правильные правила оценки», но нет «строгих правил оценки».) Таким образом, «строго» должно быть наречием, а не прилагательным, и следует использовать «строго». Как это чаще встречается в литературе, например, работы Тильмана Гнейтинга.

— Стефан Коласса
источник

Есть много аспектов вашего поста, которые я не отслеживаю (или считаю, что они не имеют отношения к заданному мной вопросу), но давайте начнем с «потери в результате неправильной классификации, которую вы цитируете, не является правилом оценки». Формула очень четко дается в статье: L1 (1-q) = 1 [q <= 0.5] (простите за плохое форматирование). Для всех практических целей это ступенчатая функция, которая напрямую отображает любой вероятностный прогноз и связанный с ним результат с потерей 0 или 1. Кроме того, 0,5 - это просто параметр, который контролирует, где происходит шаг; Я не вижу в этом «предположения». Как это не правило подсчета очков?

— Zyzzva

Порог 0,5 это предположение. Вероятностный прогноз отображается на классификацию с использованием порогового значения, и тогда потеря из-за неправильной классификации является только функцией этой классификации. Вы можете рассчитать потерю ошибочной классификации в равной степени для любой другой классификации, например, такой, которая бросает кубик и присваивает экземпляр классу А, если мы бросаем 1 или 2. Я приложил все усилия, чтобы объяснить, что является сложной и часто неправильно понимаемой темой (и Я чувствую , что все , что я пишу об это уместно); Прошу прощения, если мне не удалось. Я был бы рад обсудить любые оставшиеся вопросы.

q

$q$

— Стефан Коласса

Что касается комментария по поводу релевантности, я прошу прощения, если он ошибся. Я попытался сфокусировать сферу вопроса, чтобы быть конкретно о правильном и неправильном, а не прерывистом / вводящем в заблуждение / и т.д. Я хорошо знаком с предоставленными вами ссылками, и у меня нет проблем с вашими комментариями по поводу затрат на неправильную классификацию или итоговой суммы. Я просто ищу более строгое объяснение утверждения «точность неуместна», особенно учитывая, что эта статья предлагает иное для случая общего использования бинарных результатов. Спасибо, что нашли время обсудить это со мной и поделиться своими подробными мыслями.

— Zyzzva

После дальнейших размышлений, я думаю, у меня есть более четкое представление о том, что вы делаете. Если мы рассмотрим ту же функцию шага с шагом 0,6 (что соответствует классификации с пороговым значением 0,6), тогда правило подсчета очков является неправильным, поскольку ожидаемые потери больше не будут минимизированы прогнозом q = n для n в диапазоне [ 0,5, 0,6]. В более общем смысле, это будет некорректно при каждом пороговом значении, отличном от 0,5, и часто на практике мы хотим использовать другие пороговые значения из-за асимметричной стоимости неправильной классификации, как вы указали.

— Zyzzva

Я согласен, что точность является явно плохой метрикой для оценки вероятностей, даже если порог 0,5 оправдан. Я сказал столько же в конце первоначального поста, который сделал, но это помогло прояснить конкретные детали, с которыми у меня возникли проблемы, а именно - согласовать то, что я неправильно понял, как показ, что точность подходит для двоичных результатов (когда это только реальность. относится к очень конкретному случаю порога 0,5) с, казалось бы, черно-белым утверждением «точность неуместна», которое я часто видел. Спасибо за вашу помощь и терпение.

— Zyzzva

Является ли точность неправильным правилом оценки в бинарной классификации?

TL; DR

Немного длиннее версия

Ваше замешательство

Детали: правила оценки и оценки классификации

Суть

Ниппик: «строгий» против «строго»