TL; DR.
Тот факт, что учетная ставка ограничена, чтобы быть меньше 1, является математическим трюком, чтобы сделать бесконечную сумму конечной. Это помогает доказать сходимость определенных алгоритмов.
На практике коэффициент дисконтирования можно использовать для моделирования того факта, что лицо, принимающее решение, не уверено в том, что в следующем моменте принятия решения мир (например, среда / игра / процесс ) закончится.
Например:
Если лицо, принимающее решение, является роботом, фактором скидки может быть вероятность того, что робот будет отключен в следующий момент времени (мир заканчивается в предыдущей терминологии). По этой причине робот близорук и не оптимизирует вознаграждение в виде суммы, а вознаграждение в виде
дисконтированной суммы.
Коэффициент скидки меньше 1 (подробно)
Чтобы более точно ответить, почему ставка дисконта должна быть меньше единицы, я сначала введу Марковские процессы принятия решений (MDP).
Методы обучения подкрепления могут быть использованы для решения MDP. MDP обеспечивает математическую основу для моделирования ситуаций принятия решений, когда результаты частично случайны и частично находятся под контролем лица, принимающего решения. MDP определяется через пространство состояний , пространство действий , функцию вероятностей перехода между состояниями (обусловленных действием, предпринимаемым лицом, принимающим решения), и функцией вознаграждения.SA
В своей базовой ситуации лицо, принимающее решения, принимает меры и получает вознаграждение от среды, и среда меняет свое состояние. Затем лицо, принимающее решения, чувствует состояние окружающей среды, предпринимает действия, получает вознаграждение и так далее. Переходы между состояниями являются вероятностными и зависят исключительно от фактического состояния и действий, предпринимаемых лицом, принимающим решения. Награда, полученная лицом, принимающим решения, зависит от предпринятых действий, а также от первоначального и нового состояния среды.
Награда получается при выполнении действия в состоянии и среда / система переходит в состояние после того, как лицо, принимающее решение, предпринимает действие . Лицо, принимающее решение, придерживается политики , которая для каждого состояния выполняет действие . Таким образом, политика - это то, что сообщает лицу, принимающему решение, какие действия необходимо предпринять в каждом штате. Политика может быть рандомизирована, но пока это не имеет значения.Rai(sj,sk)aisjskaiπ π(⋅):S→Asj∈Sai∈Aπ
Цель состоит в том, чтобы найти политику такую , чтоπ
maxπ:S(n)→ailimT→∞E{∑n=1TβnRxi(S(n),S(n+1))}(1),
где - коэффициент дисконтирования, а .ββ<1
Обратите внимание, что описанная выше задача оптимизации имеет бесконечный временной горизонт ( ), и цель состоит в том, чтобы максимизировать вознаграждение на сумму (вознаграждение умножается на ). Обычно это называют проблемой MDP с критериями вознаграждения со скидкой в бесконечном горизонте .T→∞discountedRβn
Проблема называется обесцененной, потому что . Если бы это не была проблема со скидкой сумма не сходилась бы. Все политики, которые получают в среднем положительное вознаграждение в каждый момент времени, суммируются до бесконечности. Это будет критерий вознаграждения с бесконечной суммой горизонта , и он не является хорошим критерием оптимизации.β<1β=1
Вот игрушечный пример, чтобы показать вам, что я имею в виду:
Предположим, что есть только два возможных действия и что функция вознаграждения равна если , и если (вознаграждение не зависит от состояния).a=0,1R1a=10a=0
Понятно, что политика, которая получает больше вознаграждений, заключается в том, чтобы всегда совершать действие а не действие . Я назову эту политику . Я сравню с другой политикой которая выполняет действие с малой вероятностью , а действие противном случае.a=1a=0π∗π∗π′a=1α<<1a=0
В критериях вознаграждения со скидкой в бесконечном горизонте уравнение (1) становится (сумма геометрического ряда) для политики а для политики уравнение (1) становится . Поскольку , мы говорим, что - лучшая политика, чем . На самом деле является оптимальной политикой.11−βπ∗π′α1−β11−β>α1−βπ∗π′π∗
В критериях вознаграждения суммы бесконечного горизонта ( ) уравнение (1) не сходится ни для одной из политик (оно суммирует до бесконечности). Таким образом, в то время как политика достигает более высокого вознаграждения, чем обе политики равны в соответствии с этим критерием. Это одна из причин, по которой критерии вознаграждения в виде бесконечной суммы горизонта бесполезны.β=1ππ′
Как я уже упоминал ранее, позволяет сделать так, чтобы сумма в уравнении (1) сходилась.β<1
Другие критерии оптимальности
Существуют и другие критерии оптимальности, которые не предполагают, что :β<1
Цель критериев конечного горизонта состоит в том, чтобы максимизировать дисконтированное вознаграждение до временного горизонтаT
maxπ:S(n)→aiE{∑n=1TβnRxi(S(n),S(n+1))},
для и конечно.β≤1T
В критериях среднего вознаграждения для бесконечного горизонта целью является
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
Конечная заметка
В зависимости от критериев оптимальности можно было бы использовать другой алгоритм, чтобы найти оптимальную политику. Например, оптимальная политика задач с конечным горизонтом будет зависеть как от состояния, так и от фактического момента времени. Большинство алгоритмов обучения подкреплению (например, SARSA или Q-learning) сходятся к оптимальной политике только для критериев бесконечного горизонта со скидкой за вознаграждение (то же самое происходит для алгоритмов динамического программирования). Для критерия среднего вознаграждения не существует алгоритма, который, как было показано, сходится к оптимальной политике, однако можно использовать R-обучение, которое имеет хорошую производительность, хотя и не является хорошей теоретической конвергенцией.