Является ли оптимальная политика всегда стохастической (то есть, карта от состояний к распределению вероятности по действиям), если среда также стохастическая?
Нет.
Оптимальная политика обычно является детерминированной, если:
Важная информация о состоянии отсутствует (POMDP). Например, на карте, где агенту не разрешено знать его точное местоположение или запоминать предыдущие состояния, а заданное ему состояние недостаточно для устранения неоднозначности между местоположениями. Если цель состоит в том, чтобы добраться до определенного конечного местоположения, оптимальная политика может включать в себя несколько случайных перемещений, чтобы избежать застревания. Обратите внимание, что среда в этом случае может быть детерминированной (с точки зрения человека, который может видеть все состояние), но все же привести к необходимости стохастической политики для ее решения.
Существует некоторый сценарий теории минимаксных игр, где детерминистическая политика может быть наказана окружающей средой или другим агентом. Подумайте, ножницы / бумага / камень или дилемма заключенного.
Интуитивно понятно, что если среда является детерминированной (то есть, если агент находится в состоянии 𝑠 и выполняет действие 𝑎, то следующее состояние always ′ всегда одинаково, независимо от того, какой шаг по времени), тогда оптимальная политика также должна быть детерминированной (то есть это должна быть карта от состояний к действиям, а не к распределению вероятностей по действиям).
Это кажется разумным, но вы можете развить эту интуицию с помощью любого метода, основанного на функции значения:
Если вы нашли функцию оптимального значения, то действовать жадно по отношению к ней - оптимальная политика.
Вышеприведенное утверждение является просто естественным языком переформулировки уравнения оптимальности Беллмана:
v∗(s)=maxa∑r,s′p(r,s′|s,a)(r+γv∗(s′))
maxa
Следовательно, любая среда, которая может быть смоделирована с помощью MDP и решена с помощью метода, основанного на значениях (например, итерация значений, Q-обучение), имеет оптимальную политику, которая является детерминированной.
В такой среде возможно, что оптимальное решение может быть вовсе не стохастическим (т. Е. Если вы добавите какую-либо случайность в детерминированную оптимальную политику, политика станет строго хуже). Однако, когда есть связи для максимального значения для одного или нескольких действий в одном или нескольких состояниях, тогда существует множество эквивалентных оптимальных и детерминированных политик. Вы можете построить стохастическую политику, которая смешивает их в любой комбинации, и она также будет оптимальной.