Статистика и большие данные multiarmed-bandit

3

Самым известным бандитским алгоритмом является верхний предел доверия (UCB), который популяризировал этот класс алгоритмов. С тех пор я предполагаю, что теперь есть лучшие алгоритмы. Каков текущий лучший алгоритм (с точки зрения либо эмпирической производительности, либо теоретических границ)? Является ли этот алгоритм оптимальным в некотором смысле?

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

4

В каких реальных ситуациях мы можем использовать алгоритм многорукого бандита?

Многорукие бандиты хорошо работают в ситуации, когда у вас есть выбор, и вы не уверены, какой из них увеличит ваше самочувствие. Вы можете использовать алгоритм для некоторых реальных жизненных ситуаций. В качестве примера, обучение может быть хорошей областью: Если ребенок изучает столярное дело, и он плохо в этом разбирается, алгоритм …

15 algorithms reinforcement-learning multiarmed-bandit

1

Функции стоимости для контекстных бандитов

Я использую vowpal wabbit для решения проблемы контекстуального бандита . Я показываю рекламу пользователям, и у меня есть достаточно информации о контексте, в котором показывается реклама (например, кто такой пользователь, на каком сайте он находится и т. Д.). Похоже, это довольно классическая контекстная проблема бандитов, описанная Джоном Лэнгфордом . В …

14 multinomial gradient-descent multiarmed-bandit vowpal-wabbit contextual-bandit

2

Что такое Тэмпсон Сэмплинг с точки зрения непрофессионала?

Я не могу понять Тэмпсон Сэмплинг и как это работает. Я читал о Multi Arm Bandit и после прочтения Upper Confidence Bound Algorithm многие тексты предположили, что сэмплинг Thompson работает лучше, чем UCB. Что такое Тэмпсон Сэмплинг, с точки зрения непрофессионала или просто? Не стесняйтесь предоставлять справочные статьи для дальнейшего …

14 machine-learning definition multiarmed-bandit

1

Оптимальный алгоритм решения n-вооруженных бандитских задач?

Я читал о ряде алгоритмов для решения проблем с n-вооруженными бандитами, таких как -greedy, softmax и UCB1, но у меня возникли некоторые проблемы при выборе лучшего подхода для минимизации сожалений.εε\epsilon Существует ли известный оптимальный алгоритм для решения проблемы вооруженного бандита? Есть ли выбор алгоритма, который, кажется, работает лучше всего на …

13 machine-learning reinforcement-learning multiarmed-bandit

1

Многорукий бандит для общего распределения наград

Я работаю над проблемой многорукого бандита, где у нас нет никакой информации о распределении наград. Я нашел много работ, которые гарантируют оценки сожаления для распределения с известной оценкой и для общих распределений с поддержкой в [0,1]. Я хотел бы выяснить, есть ли способ добиться хороших результатов в среде, где распределение …

11 references multiarmed-bandit

Вопросы с тегом «multiarmed-bandit»