Оптимальный алгоритм решения n-вооруженных бандитских задач?


13

Я читал о ряде алгоритмов для решения проблем с n-вооруженными бандитами, таких как -greedy, softmax и UCB1, но у меня возникли некоторые проблемы при выборе лучшего подхода для минимизации сожалений.ε

Существует ли известный оптимальный алгоритм для решения проблемы вооруженного бандита? Есть ли выбор алгоритма, который, кажется, работает лучше всего на практике?


Предположительно, не существует признанного оптимального решения, так как в противном случае на странице Википедии об этом говорилось бы, и не было бы экспериментальной страницы Sourceforge
Генри

Разве это не должно быть на теоретической информатике SE?

1
@mbq, поскольку обучение с подкреплением является отраслью машинного обучения, я так не думаю;)
Штеффен

@steffen Конечно, название казалось "tcsy".

@mbq Я не понимаю. Что значит "цы"?
Штеффен

Ответы:


9

Вот две обзорные работы, которые я нашел недавно. Я еще не читал их, но тезисы звучат многообещающе.

Joann`s Vermorel и Mehryar Mohri: Алгоритмы многорукого бандита и эмпирическая оценка (2005)

Из аннотации:

Задача многорукого бандита для игрока состоит в том, чтобы решить, какую руку от игрового автомата K-слота вытащить, чтобы максимизировать его общее вознаграждение в серии испытаний. Таким образом можно смоделировать многие реальные проблемы обучения и оптимизации. Несколько стратегий или алгоритмов были предложены в качестве решения этой проблемы в последние два десятилетия, но, насколько нам известно, не было общей оценки этих алгоритмов.

Владимир Кулешов и Дойна Прекуп: алгоритмы для задачи о многоруком бандите (2000) Из аннотации:

Во-вторых, производительность большинства алгоритмов резко меняется в зависимости от параметров проблемы бандита. Наше исследование идентифицирует для каждого алгоритма настройки, где он работает хорошо, и настройки, где он работает плохо.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.