Может ли прогнозируемая вероятность логистической регрессии быть интерпретирована как уверенность в классификации

12

Можем ли мы интерпретировать апостериорную вероятность, полученную из классификатора, который выводит прогнозируемое значение класса и вероятность (например, логистическая регрессия или наивный байесовский критерий), как некоторый вид доверительной оценки, которая присваивается этому прогнозируемому значению класса?

probability logistic naive-bayes

— Mel
источник

8

Как правильно указывают другие ответы, сообщенные вероятности из таких моделей, как логистическая регрессия и наивный байесовский анализ, являются оценками вероятности класса. Если бы модель была верной, вероятность действительно была бы вероятностью правильной классификации.

Тем не менее, очень важно понимать, что это может вводить в заблуждение, потому что модель оценивается и, следовательно, не является правильной моделью. Есть как минимум три вопроса.

Неопределенность оценок.
Неверная спецификация модели.
Bias.

Неопределенность как раз везде присутствует факт , что вероятность является лишь приблизительным. Доверительный интервал предполагаемой вероятности класса может дать некоторое представление о неопределенности (вероятности класса, а не классификации).

$-$ $-$

Если процедура оценки (намеренно) дает необъективную оценку , вероятности класса ошибочны. Это то, что я вижу в методах регуляризации, таких как лассо и ридж для логистической регрессии. В то время как перекрестно проверенный выбор регуляризации приводит к модели с хорошими характеристиками в плане классификации, вероятности результирующего класса явно недооцениваются (слишком близко к 0,5) в тестовых случаях. Это не обязательно плохо, но важно осознавать.

— NRH
источник

2

Для тестового случая (конкретного входа) его прогностическая вероятность (например, метка 1 для двоичного выхода) - это вероятность того, что тестовый пример принадлежит этому классу. Во многих таких тестовых случаях доля, принадлежащая классу 1, будет иметь тенденцию к прогнозирующей вероятности. У доверия есть коннотации доверительных интервалов, которые являются чем-то совершенно другим.

— Yoda
источник

1

Если классификатор предсказывает определенный класс с вероятностью, это число может использоваться в качестве прокси для степени доверия к этой классификации. Не путать с доверительными интервалами. Например, если классификатор P предсказывает два случая как +1 и -1 с вероятностью 80% и 60%, то правильно сказать, что он более уверен в классификации +1, чем в классификации -1. Дисперсия, измеренная с помощью p (1-p), также является хорошим показателем неопределенности. Обратите внимание, что базовая достоверность составляет 50%, а не 0.

— брокколи
источник

1

При наличии классификатора с 2-мя классами (например, 2-классным линейным дискриминантом или классификатором логистической регрессии) значение дискриминанта для обоих классов может быть применено к функции softmax для получения оценки апостериорной вероятности для этого класса:

P1 = exp (d1) / (exp (d1) + exp (d2))

Где P1 - апостериорная оценка вероятности для класса 1, d1 и d2 - дискриминантные значения для классов 1 и 2 соответственно. В этом случае предполагаемая апостериорная вероятность для данного класса может быть принята как степень доверия к классу, поскольку для данного случая P1 будет равно 1 - P2.

— BGreene
источник

1

Этот ответ, по-видимому, приравнивает «вероятность» к «уверенности», тогда как ответ @ Йоды (правильно) различает два.

— whuber

@whuber Я думаю, что в общих чертах уверенность можно рассматривать как силу веры. Таким образом, это похоже на вероятность. Уверенность и доверительный интервал - это две разные вещи. Однако даже для термина доверительный интервал уровень достоверности является вероятностью покрытия для случайного интервала.

— Майкл Р. Черник

Я не согласен с вашими замечаниями, @Michael, в том смысле, что такой термин, как «показатель доверия», может означать почти все (но, возможно, его использование следует исключить именно по этой причине). Но в каком смысле значение, соответствующее логистической регрессии, является «вероятностью охвата»? Делает ли предложенное вами использование «уверенности» в качестве силы убеждения синонимом субъективной «вероятности» или же какое-то различие сохраняется? (Если так, то что?)

— whuber

1

@whuber Я думаю, что вы углубляетесь в это гораздо глубже, чем я хотел в своем замечании. Я просто хочу сказать, что просто потому, что мы обычно связываем слово «достоверность» с доверительным интервалом, это не означает, что термин «доверительная оценка» ОП не может использоваться для обозначения вероятности (возможно, как байесовский взгляд на вероятность как субъективный уровень веры, но не обязательно).

— Майкл Р. Черник

1

@whuber, я действительно имел в виду доверие к метке класса в смысле «сила веры», то есть чем больше апостериорное значение вероятности для данного класса, тем больше у вас уверенности в предсказанной метке класса. Я счастлив удалить этот ответ однако.

— BGreene