Вот две обзорные работы, которые я нашел недавно. Я еще не читал их, но тезисы звучат многообещающе.
Joann`s Vermorel и Mehryar Mohri: Алгоритмы многорукого бандита и эмпирическая оценка (2005)
Из аннотации:
Задача многорукого бандита для игрока состоит в том, чтобы решить, какую руку от игрового автомата K-слота вытащить, чтобы максимизировать его общее вознаграждение в серии испытаний. Таким образом можно смоделировать многие реальные проблемы обучения и оптимизации. Несколько стратегий или алгоритмов были предложены в качестве решения этой проблемы в последние два десятилетия, но, насколько нам известно, не было общей оценки этих алгоритмов.
Владимир Кулешов и Дойна Прекуп: алгоритмы для задачи о многоруком бандите (2000) Из аннотации:
Во-вторых, производительность большинства алгоритмов резко меняется в зависимости от параметров проблемы бандита. Наше исследование идентифицирует для каждого алгоритма настройки, где он работает хорошо, и настройки, где он работает плохо.