Вопросы с тегом «multiarmed-bandit»

3
Лучший бандитский алгоритм?
Самым известным бандитским алгоритмом является верхний предел доверия (UCB), который популяризировал этот класс алгоритмов. С тех пор я предполагаю, что теперь есть лучшие алгоритмы. Каков текущий лучший алгоритм (с точки зрения либо эмпирической производительности, либо теоретических границ)? Является ли этот алгоритм оптимальным в некотором смысле?

4
В каких реальных ситуациях мы можем использовать алгоритм многорукого бандита?
Многорукие бандиты хорошо работают в ситуации, когда у вас есть выбор, и вы не уверены, какой из них увеличит ваше самочувствие. Вы можете использовать алгоритм для некоторых реальных жизненных ситуаций. В качестве примера, обучение может быть хорошей областью: Если ребенок изучает столярное дело, и он плохо в этом разбирается, алгоритм …

1
Функции стоимости для контекстных бандитов
Я использую vowpal wabbit для решения проблемы контекстуального бандита . Я показываю рекламу пользователям, и у меня есть достаточно информации о контексте, в котором показывается реклама (например, кто такой пользователь, на каком сайте он находится и т. Д.). Похоже, это довольно классическая контекстная проблема бандитов, описанная Джоном Лэнгфордом . В …

2
Что такое Тэмпсон Сэмплинг с точки зрения непрофессионала?
Я не могу понять Тэмпсон Сэмплинг и как это работает. Я читал о Multi Arm Bandit и после прочтения Upper Confidence Bound Algorithm многие тексты предположили, что сэмплинг Thompson работает лучше, чем UCB. Что такое Тэмпсон Сэмплинг, с точки зрения непрофессионала или просто? Не стесняйтесь предоставлять справочные статьи для дальнейшего …

1
Оптимальный алгоритм решения n-вооруженных бандитских задач?
Я читал о ряде алгоритмов для решения проблем с n-вооруженными бандитами, таких как -greedy, softmax и UCB1, но у меня возникли некоторые проблемы при выборе лучшего подхода для минимизации сожалений.εε\epsilon Существует ли известный оптимальный алгоритм для решения проблемы вооруженного бандита? Есть ли выбор алгоритма, который, кажется, работает лучше всего на …

1
Многорукий бандит для общего распределения наград
Я работаю над проблемой многорукого бандита, где у нас нет никакой информации о распределении наград. Я нашел много работ, которые гарантируют оценки сожаления для распределения с известной оценкой и для общих распределений с поддержкой в ​​[0,1]. Я хотел бы выяснить, есть ли способ добиться хороших результатов в среде, где распределение …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.