Определить точность модели, которая оценивает вероятность события


12

Я моделирую событие с двумя исходами, а и б. Я создал модель, которая оценивает вероятность того, что a или b произойдут (то есть модель рассчитает, что a произойдет с вероятностью 40%, а b произойдет с вероятностью 60%).

У меня есть большая запись результатов испытаний с оценками из модели. Я хотел бы дать количественную оценку того, насколько точно модель использует эти данные - возможно ли это, и если да, то как?


Я могу ошибаться, но я думаю, что вы заинтересованы в ошибке обучения и / или теста вашей модели. См., Например: cs.ucla.edu/~falaki/pub/classification.pdf
Stijn

1
@Stijn Он предсказывает вероятность, а не напрямую классифицирует ее как a или b, поэтому я не думаю, что эти показатели - то, о чем он просит.
Майкл МакГоуэн

6
Вас больше интересует, насколько хорошо модель в конечном итоге будет работать для классификации (в этом случае тип анализа ROC и AUC представляется наиболее актуальным ( en.wikipedia.org/wiki/Receiver_operating_characteristic )? Или вас больше интересует понимание того, как «откалиброван» вероятностные прогнозы (то есть действительно ли P (Результат = A) = 60% означают 60%, или просто этот результат = A более вероятен, чем другие результаты ...
DavidR

1
Похоже, вы хотите знать о вероятности выигрыша .
whuber

1
Элвис, статья в текущем выпуске Decision Analysis привлекла мое внимание к оценке вероятности. Это, кажется, основано на существенной литературе по теме. (У меня нет доступа к чему-то большему, чем реферат, поэтому я не могу комментировать саму статью.) На титульном листе редакторов журнала (который находится в свободном доступе ) упоминается ряд предыдущих статей на ту же тему.
whuber

Ответы:


16

Предположим, что ваша модель действительно предсказывает, что шанс А составляет 40%, а В - 60%. В некоторых случаях вы можете захотеть преобразовать это в классификацию, в которой произойдет B (так как это более вероятно, чем A). После преобразования в классификацию каждое предсказание является правильным или неправильным, и существует ряд интересных способов подсчета правильных и неправильных ответов. Одним из них является прямая точность (процент правильных ответов). Другие включают точность и отзыв или F-меру . Как уже упоминалось, вы можете посмотреть на кривую ROC . Кроме того, ваш контекст может предоставить конкретную матрицу затрат, которая вознаграждает истинные позитивы по-разному от истинных негативов и / или штрафует ложные позитивы по-разному от ложных негативов.

Тем не менее, я не думаю, что это то, что вы действительно ищете. Если вы сказали, что вероятность B составляет 60%, а я сказал, что вероятность 99%, у нас очень разные прогнозы, даже если они оба будут сопоставлены с B в простой системе классификации. Если вместо этого произойдет «А», вы просто ошибаетесь, а я очень ошибаюсь, поэтому я надеюсь, что получу более суровое наказание, чем вы. Когда ваша модель фактически производит вероятности, правило оценки является мерой эффективности ваших вероятностных прогнозов. В частности, вам, вероятно, нужно правильное правило подсчета очков, означающее, что оценка оптимизирована для хорошо откалиброванных результатов.

BS=1Nt=1N(ftot)2
ftot

Конечно, тип выбранного вами правила оценки может зависеть от того, какой тип события вы пытаетесь предсказать. Тем не менее, это должно дать вам некоторые идеи для дальнейших исследований.

Я добавлю предостережение о том, что независимо от того, что вы делаете, при оценке вашей модели таким образом, я предлагаю вам взглянуть на свой показатель на данных вне выборки (то есть на данных, которые не использовались для построения вашей модели). Это может быть сделано через перекрестную проверку . Возможно, более просто вы можете построить свою модель на одном наборе данных, а затем оценить ее на другом (стараясь не допустить, чтобы выводы из различий вне выборки попали в моделирование внутри выборки).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.