По сути, вы задаете очень интересный вопрос: я должен предсказать, используя "MAP Байесовская" Максимальная апостериорная оценка или "Реальный Байесовский"
P(H)=0.22080
argmaxθf(x|θ)
Нетрудно доказать, что таким образом вы можете минимизировать прогнозируемую ошибку (потеря 0-1). Доказательство можно найти на странице 53 « Введение в статистическое обучение» .
Есть еще один способ сделать это, называемый «реальным байесовским» подходом. По сути, вы не пытаетесь «выбрать результат с наибольшей вероятностью, а рассматриваете все случаи с вероятностью». Поэтому, если кто-то попросит вас «предсказать следующие 100» бросков, вам следует приостановить его / ее, потому что, когда вы дали 100 двоичных результатов, вероятностная информация для каждого результата исчезает. Вместо этого вы должны спросить, что вы хотите сделать ПОСЛЕ того, как узнаете результаты.
Предположим, что он / она имеет некоторую функцию потери (необязательно для потери 0-1, например, функция потери может быть такой: если вы пропускаете голову, вам нужно заплатить 1 доллар , но если вы пропустите хвост, вам нужно заплатить 5 долл. , Т. Е. Несбалансированная потеря) в вашем прогнозе, тогда вам следует использовать свои знания о распределении результатов, чтобы минимизировать потери по всему распределению
∑x∑yp(x,y)L(f(x),y)
, т. е. включить ваши знания о распределении в убыток, а не «поэтапно», получить прогнозы и сделать следующие шаги.
Более того, у вас очень хорошая интуиция о том, что будет, когда будет много возможных результатов. Оценка MAP не будет работать хорошо, если число результатов велико и масса вероятности широко распространена. Подумайте, у вас есть 100 дополнительных кубиков, и вы знаете истинное распределение. Где и . Теперь, что вы делаете с MAP? Вы всегда будете догадываться, что получите первую сторону , поскольку она имеет наибольшую вероятность по сравнению с другими. Однако вы ошибетесь в случаев!P(S1)=0.1P(S2)=P(S3)=P(S100)=0.9/99=0.009090S190%