Что такое Тэмпсон Сэмплинг с точки зрения непрофессионала?


14

Я не могу понять Тэмпсон Сэмплинг и как это работает. Я читал о Multi Arm Bandit и после прочтения Upper Confidence Bound Algorithm многие тексты предположили, что сэмплинг Thompson работает лучше, чем UCB. Что такое Тэмпсон Сэмплинг, с точки зрения непрофессионала или просто?

Не стесняйтесь предоставлять справочные статьи для дальнейшего понимания.

Ответы:


9

Я попытаюсь дать объяснение без какой-либо математики. Часть этого ответа повторяется из некоторых моментов, которые я сделал в ответе на другой вопрос о проблемах МАБ .


Стратегический компромисс в задачах с несколькими вооруженными бандитами: В задачах с несколькими вооруженными бандитами игрок играет по одному «бандиту» в каждом раунде и пытается максимизировать его общий ожидаемый доход за указанное количество раундов. Ожидаемое возвращение каждого из бандитов описывается некоторыми неизвестными параметрами в задаче, и поэтому, поскольку мы наблюдаем больше результатов в каждом раунде, мы получаем больше информации об этих неизвестных параметрах и, следовательно, об ожидаемом возвращении каждого из бандитов , В каждом раунде игры (кроме последнего) проблема MAB включает стратегический компромисс между игроком и двумя целями:

  • Немедленные награды: в каждом раунде он хотел бы выбрать распределение, которое дает ему высокую ожидаемую награду в этом раунде, что влечет за собой предпочтение распределений, которые он (в настоящее время) подразумевает, чтобы иметь высокую среднюю награду;

  • Будущие награды (зависит от получения информации): с другой стороны, он хочет усовершенствовать свои знания об ожидаемых реальных вознаграждениях, получая больше информации о распределениях (особенно тех, которые он не разыграл так много, как другие), чтобы он мог улучшить его выбор в будущих раундах.

Относительная важность этих двух вещей будет определять компромисс, и на эту относительную важность влияет ряд факторов. Например, если в задаче есть только небольшое количество оставшихся раундов, то вывод для будущих испытаний является относительно менее ценным, тогда как если существует большое количество оставшихся раундов, то вывод для будущих вознаграждений является относительно более ценным. Таким образом, игрок должен подумать, насколько он хочет сосредоточиться на максимизации немедленного вознаграждения в текущем раунде, и сколько он хочет отклониться от этого, чтобы узнать больше о неизвестных параметрах, которые определяют ожидаемое вознаграждение каждого из бандитов.


Выборка Томпсона . Основная идея выборки Томпсона заключается в том, что в каждом раунде мы берем наши существующие знания о машинах, которые представлены в форме апостериорного представления о неизвестных параметрах, и мы «выбираем» параметры из этого апостериорного распределения. Этот выборочный параметр дает набор ожидаемых вознаграждений для каждой машины, и теперь мы делаем ставку на тот, который имеет наибольшую ожидаемую прибыль, при этом выбранном параметре.

Первоначально схема выборки Томпсона, по-видимому, включает в себя попытку максимизировать ожидаемый немедленный доход в каждом раунде (поскольку она включает этот этап максимизации после выборки параметра). Однако, поскольку он включает случайную выборку параметра сзади, схема подразумевает неявноеизменение максимизации настоящего вознаграждения в сравнении с поиском дополнительной информации. Большую часть времени мы получим параметр «образец», который находится где-то в основной части апостериора, и выбор машины будет приблизительно приближен к максимизации немедленной награды. Однако иногда мы случайным образом выбираем значение параметра, которое находится далеко за хвостами апостериорного распределения, и в этом случае мы в конечном итоге выберем машину, которая не максимизирует немедленное вознаграждение, то есть это будет скорее «поиском» «чтобы помочь с будущими наградами.

Схема Томпсона также обладает тем приятным свойством, что мы склонны уменьшать наш «поиск» по мере того, как мы получаем больше информации, и это имитирует желательный стратегический компромисс в проблеме, когда мы хотим меньше сосредоточиться на поисках, когда получаем больше информации. По мере того, как мы играем все больше и больше раундов и получаем все больше и больше данных, апостериор сходится ближе к истинным значениям параметров, и поэтому случайная «выборка» в схеме Томпсона становится более плотно упакованной вокруг значений параметров, что приведет к максимизации немедленная награда. Следовательно, существует неявная тенденция этой схемы быть более «ориентированной на поиск» вначале с небольшим количеством информации, и менее «ориентированной на поиск» позже, когда имеется много данных.

Теперь, сказав это, один явный недостаток схемы выборки Томпсона состоит в том, что она не учитывает число раундов, оставшихся в задаче MAB. Эта схема иногда формулируется на основе игры с бесконечными раундами, и в этом случае это не проблема. Однако в задачах MAB с конечными раундами предпочтительно учитывать количество оставшихся раундов, чтобы уменьшить «поиск» по мере уменьшения количества будущих раундов. (И, в частности, оптимальная игра в последнем раунде - полностью игнорировать поиски и просто делать ставки на бандита с наибольшим ожидаемым возвратом.) Схема Томпсона не делает этого, поэтому она будет играть в игры с конечным раундом таким образом, это явно не оптимально в некоторых случаях.


1
Я хотел бы дать этот ответ несколькими пальцами вверх. Я бы, вероятно, добавил, как я буду обновлять постеры - например, если постеры были представлены как обычные распределения - как рассчитываются обновления для среднего и стандартного отклонения постеров. Я говорю это, потому что я не знаю себя
Mellow

5

Я сделаю это, и я надеюсь, вам понравится! Ниже приведены некоторые формулы, которые могут вас напугать. Я не надеюсь на это, потому что я сделаю все возможное, чтобы объяснить их самым простым способом, который я могу.

Это две формулы:

  • п(р|θ,a,Икс)
  • п(θ|D)

TL; DR

Томпсон Сэмплинг позволяет вам

  1. Выберите случайный параметр модели из всех параметров модели, которые вы считаете возможными.
  2. Действуйте один раз в соответствии с этим конкретным параметром модели.
  3. Обратите внимание на награду, которую вы получите с этим конкретным параметром модели.
  4. Учитесь на этом новом опыте и обновите свое мнение о возможных параметрах модели.

Вероятность??

рaИкс

Что насчет этого странного круга?

θθθВы знаете, как контекст + действия относятся к вознаграждению, и легко действовать оптимально.

Так как же нам узнать эти параметры модели, чтобы я мог получить максимальное вознаграждение?

Это основной вопрос для проблемы многорукого бандита. На самом деле, он состоит из двух частей. Вы хотите узнать параметры модели точно, исследуя все виды действий в разных контекстах. Но если вы уже знаете, какое действие подходит для определенного контекста, вы хотите использовать это действие и получить как можно больше наград. Так что если вы не уверены в параметрах вашей моделиθВы могли бы хотеть сделать некоторое дополнительное исследование. Если вы уверены в наших параметрах моделиθВы также уверены, какое действие предпринять. Это известно как компромисс между разведкой и эксплуатацией.

Вы ничего не сказали об этом заднем

Ключом к этому оптимальному поведению является ваша (не) уверенность в параметрах модели θ, И апостериор говорит именно это: учитывая все предыдущие награды, которые мы получили от предыдущих действий в предыдущих контекстах, сколько вы знаете оθ, Например, если вы никогда не были на улице, вы не знаете, как вы несчастны, когда на голову падает дождь. Другими словами, вы очень не уверены относительно параметра модели «несчастье, когда идет дождь». Если вы иногда были под дождем, с зонтиком и без него, вы можете начать изучать этот неясный параметр модели.

Теперь, что Thomson Sampling предлагает сделать со всеми этими неопределенностями ??

Thomson Sampling предлагает кое-что очень простое: просто выберите случайный модельный параметр из своей апостериории, примите меры и наблюдайте, что происходит. Например, когда вы никогда не были на улице раньше, параметр «несчастье, когда дождь на голове» может быть любым. Таким образом, мы просто выбираем один, мы предполагаем, что мы действительно несчастны, когда дождь падает на нашу голову. Мы видим, что идет дождь (контекст), поэтому мы берем зонтик (действие), потому что наш параметр модели говорит нам, что именно так мы можем получить максимальное вознаграждение. И действительно, вы замечаете, что вы чувствуете себя немного раздражительным от прогулки под дождем с зонтиком, но на самом деле не несчастны. Из этого мы узнаем, что дождь + зонт сварливый. В следующий раз, когда идет дождь, вы снова выбираете случайное представление о том, что происходит, когда дождь падает на вашу голову. На этот раз, возможно, это вас совсем не беспокоит. Тем не мение, как только вы на полпути к месту назначения, вы мокнете и узнаете, что дождь без зонта действительно плох. Это уменьшает вашу неуверенность в отношении несчастья, когда идет дождь, потому что теперь вы знаете, что он, вероятно, высок.

Это звучит так просто!

Да, это не так сложно. Сложная часть - это выборка из заданного параметра модели. Получить и поддерживать распределение по всем параметрам вашей модели, которое также подходит для вашей конкретной задачи, сложно. Но ... это определенно выполнимо :).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.