Оптимальный алгоритм решения n-вооруженных бандитских задач?

Я читал о ряде алгоритмов для решения проблем с n-вооруженными бандитами, таких как -greedy, softmax и UCB1, но у меня возникли некоторые проблемы при выборе лучшего подхода для минимизации сожалений. $\epsilon$

Существует ли известный оптимальный алгоритм для решения проблемы вооруженного бандита? Есть ли выбор алгоритма, который, кажется, работает лучше всего на практике?

machine-learning reinforcement-learning multiarmed-bandit

— JS01
источник

Предположительно, не существует признанного оптимального решения, так как в противном случае на странице Википедии об этом говорилось бы, и не было бы экспериментальной страницы Sourceforge

— Генри

Разве это не должно быть на теоретической информатике SE?

@mbq, поскольку обучение с подкреплением является отраслью машинного обучения, я так не думаю;)

— Штеффен

@steffen Конечно, название казалось "tcsy".

@mbq Я не понимаю. Что значит "цы"?

— Штеффен

Вот две обзорные работы, которые я нашел недавно. Я еще не читал их, но тезисы звучат многообещающе.

Joann`s Vermorel и Mehryar Mohri: Алгоритмы многорукого бандита и эмпирическая оценка (2005)

Из аннотации:

Задача многорукого бандита для игрока состоит в том, чтобы решить, какую руку от игрового автомата K-слота вытащить, чтобы максимизировать его общее вознаграждение в серии испытаний. Таким образом можно смоделировать многие реальные проблемы обучения и оптимизации. Несколько стратегий или алгоритмов были предложены в качестве решения этой проблемы в последние два десятилетия, но, насколько нам известно, не было общей оценки этих алгоритмов.

Владимир Кулешов и Дойна Прекуп: алгоритмы для задачи о многоруком бандите (2000) Из аннотации:

Во-вторых, производительность большинства алгоритмов резко меняется в зависимости от параметров проблемы бандита. Наше исследование идентифицирует для каждого алгоритма настройки, где он работает хорошо, и настройки, где он работает плохо.

— Штеффен
источник