Предположим, что ваша модель действительно предсказывает, что шанс А составляет 40%, а В - 60%. В некоторых случаях вы можете захотеть преобразовать это в классификацию, в которой произойдет B (так как это более вероятно, чем A). После преобразования в классификацию каждое предсказание является правильным или неправильным, и существует ряд интересных способов подсчета правильных и неправильных ответов. Одним из них является прямая точность (процент правильных ответов). Другие включают точность и отзыв или F-меру . Как уже упоминалось, вы можете посмотреть на кривую ROC . Кроме того, ваш контекст может предоставить конкретную матрицу затрат, которая вознаграждает истинные позитивы по-разному от истинных негативов и / или штрафует ложные позитивы по-разному от ложных негативов.
Тем не менее, я не думаю, что это то, что вы действительно ищете. Если вы сказали, что вероятность B составляет 60%, а я сказал, что вероятность 99%, у нас очень разные прогнозы, даже если они оба будут сопоставлены с B в простой системе классификации. Если вместо этого произойдет «А», вы просто ошибаетесь, а я очень ошибаюсь, поэтому я надеюсь, что получу более суровое наказание, чем вы. Когда ваша модель фактически производит вероятности, правило оценки является мерой эффективности ваших вероятностных прогнозов. В частности, вам, вероятно, нужно правильное правило подсчета очков, означающее, что оценка оптимизирована для хорошо откалиброванных результатов.
BS=1N∑t=1N(ft−ot)2
ftot
Конечно, тип выбранного вами правила оценки может зависеть от того, какой тип события вы пытаетесь предсказать. Тем не менее, это должно дать вам некоторые идеи для дальнейших исследований.
Я добавлю предостережение о том, что независимо от того, что вы делаете, при оценке вашей модели таким образом, я предлагаю вам взглянуть на свой показатель на данных вне выборки (то есть на данных, которые не использовались для построения вашей модели). Это может быть сделано через перекрестную проверку . Возможно, более просто вы можете построить свою модель на одном наборе данных, а затем оценить ее на другом (стараясь не допустить, чтобы выводы из различий вне выборки попали в моделирование внутри выборки).