Я сделаю это, и я надеюсь, вам понравится! Ниже приведены некоторые формулы, которые могут вас напугать. Я не надеюсь на это, потому что я сделаю все возможное, чтобы объяснить их самым простым способом, который я могу.
Это две формулы:
- п( r | θ , a , x )
- п( θ | D )
TL; DR
Томпсон Сэмплинг позволяет вам
- Выберите случайный параметр модели из всех параметров модели, которые вы считаете возможными.
- Действуйте один раз в соответствии с этим конкретным параметром модели.
- Обратите внимание на награду, которую вы получите с этим конкретным параметром модели.
- Учитесь на этом новом опыте и обновите свое мнение о возможных параметрах модели.
Вероятность??
рaИкс
Что насчет этого странного круга?
θθθВы знаете, как контекст + действия относятся к вознаграждению, и легко действовать оптимально.
Так как же нам узнать эти параметры модели, чтобы я мог получить максимальное вознаграждение?
Это основной вопрос для проблемы многорукого бандита. На самом деле, он состоит из двух частей. Вы хотите узнать параметры модели точно, исследуя все виды действий в разных контекстах. Но если вы уже знаете, какое действие подходит для определенного контекста, вы хотите использовать это действие и получить как можно больше наград. Так что если вы не уверены в параметрах вашей моделиθВы могли бы хотеть сделать некоторое дополнительное исследование. Если вы уверены в наших параметрах моделиθВы также уверены, какое действие предпринять. Это известно как компромисс между разведкой и эксплуатацией.
Вы ничего не сказали об этом заднем
Ключом к этому оптимальному поведению является ваша (не) уверенность в параметрах модели θ, И апостериор говорит именно это: учитывая все предыдущие награды, которые мы получили от предыдущих действий в предыдущих контекстах, сколько вы знаете оθ, Например, если вы никогда не были на улице, вы не знаете, как вы несчастны, когда на голову падает дождь. Другими словами, вы очень не уверены относительно параметра модели «несчастье, когда идет дождь». Если вы иногда были под дождем, с зонтиком и без него, вы можете начать изучать этот неясный параметр модели.
Теперь, что Thomson Sampling предлагает сделать со всеми этими неопределенностями ??
Thomson Sampling предлагает кое-что очень простое: просто выберите случайный модельный параметр из своей апостериории, примите меры и наблюдайте, что происходит. Например, когда вы никогда не были на улице раньше, параметр «несчастье, когда дождь на голове» может быть любым. Таким образом, мы просто выбираем один, мы предполагаем, что мы действительно несчастны, когда дождь падает на нашу голову. Мы видим, что идет дождь (контекст), поэтому мы берем зонтик (действие), потому что наш параметр модели говорит нам, что именно так мы можем получить максимальное вознаграждение. И действительно, вы замечаете, что вы чувствуете себя немного раздражительным от прогулки под дождем с зонтиком, но на самом деле не несчастны. Из этого мы узнаем, что дождь + зонт сварливый. В следующий раз, когда идет дождь, вы снова выбираете случайное представление о том, что происходит, когда дождь падает на вашу голову. На этот раз, возможно, это вас совсем не беспокоит. Тем не мение, как только вы на полпути к месту назначения, вы мокнете и узнаете, что дождь без зонта действительно плох. Это уменьшает вашу неуверенность в отношении несчастья, когда идет дождь, потому что теперь вы знаете, что он, вероятно, высок.
Это звучит так просто!
Да, это не так сложно. Сложная часть - это выборка из заданного параметра модели. Получить и поддерживать распределение по всем параметрам вашей модели, которое также подходит для вашей конкретной задачи, сложно. Но ... это определенно выполнимо :).