Представьте себе следующую схему: у вас есть 2 монеты, монета A, которая гарантированно будет честной, и монета B, которая может быть или не быть честной. Вас просят сделать 100 монетных бросков, и ваша цель - максимизировать количество голов .
Ваша предварительная информация о монете B состоит в том, что она была подброшена 3 раза и принесла 1 голову. Если ваше правило принятия решения основывалось на сравнении ожидаемой вероятности выпадения двух монет, вы бы подбросили монету А 100 раз и с этим покончено. Это верно даже при использовании разумных байесовских оценок (апостериорных средних) вероятностей, поскольку у вас нет оснований полагать, что монета B дает больше голов.
Однако что, если монета B на самом деле смещена в пользу головы? Конечно, «потенциальные головы», которые вы бросаете, бросая монету B пару раз (и, следовательно, получая информацию о ее статистических свойствах), будут в некотором смысле полезны и, следовательно, будут влиять на ваше решение. Как эту «ценность информации» можно описать математически?
Вопрос: Как построить математическое правило оптимального решения в этом сценарии?