Марковские процессы принятия решений, сокращения и итерация значений


4

Я рассматриваю процессы принятия решений по Маркову (MDP), и мне не хватает чего-то в отношении аргумента сокращения. Я почти уверен, что это где-то глупая ошибка (возможно, вычислительная), но в любом случае, я не могу понять это. Здесь это идет.

Рассмотрим простую MDP с двумя состояниями и двумя действиями, определенными следующим образом.

$$ r (s, a) = \ begin {pmatrix} 1 & amp; 1 \ 1 & amp; 1 \ end {pmatrix}, $$

$$ P (s, s ', 1) = \ begin {pmatrix} 1 & amp; 0 \\ 1 & amp; 0 \ end {pmatrix}, $$

$$ P (s, s ', 2) = \ begin {pmatrix} 0.5 & amp; 0,5 \ 0,5 & amp; 0,5 \ end {pmatrix}, $$

$$ \ beta \ in (0,1). $$

Теперь предположим, что мы начинаем с двух догадок для функции значения

$$ V_1 (s) = \ begin {pmatrix} 100 \\ 0 \ end {pmatrix}, $$

а также

$$ V_2 (s) = \ begin {pmatrix} 0 \\ 1 \ end {pmatrix}. $$

Если мы итерируем эти приближенные функции значений с помощью оператора Беллмана, мы получим

$$ T (V_1) = \ begin {pmatrix} \ max_a \ begin {case} 1 + 100 \ beta, \ qquad \ text {if} a = 1, \\                                                  1 + 50 \ beta, \ qquad \ text {if} a = 2. \ end {case} \\                              \ max_a \ begin {case} 1 + 100 \ beta, \ qquad \ text {if} a = 1, \\                                                  1 + 50 \ beta, \ qquad \ text {if} a = 2. \ end {case} \ end {pmatrix} = \ begin {pmatrix} 1 + \ beta 100 \\ 1+ \ beta 100 \ end {pmatrix} $$

а также

$$ T (V_2) = \ begin {pmatrix} \ max_a \ begin {case} 1 + 0 \ beta, \ qquad \ text {if} a = 1, \\                                                  1 + 0.5 \ beta, \ qquad \ text {if} a = 2. \ end {case} \\                              \ max_a \ begin {case} 1 + 0 \ beta, \ qquad \ text {if} a = 1, \\                                                  1 + 0.5 \ beta, \ qquad \ text {if} a = 2. \ end {case} \ end {pmatrix} = \ begin {pmatrix} 1 + \ beta 0.5 \\ 1+ \ beta 0.5 \ end {pmatrix} $$

Но тогда для $ \ beta $, достаточно близкого к $ 1 $ и, например, для нормы Манхэттена, мы имеем

$$ d (V_1 (s), V_2 (s)) \ приблизительно 101, $$

а также

$$ d (T (V_1 (s)), T (V_2 (s))) \ около 199. $$

Теперь это звучит странно для меня, потому что я думал, что $ T $ должен был быть сжатым отображением. Где я облажался? Есть ли ошибка в моих вычислениях? Я забыл применить важную гипотезу? Или я что-то неправильно понимаю в сопоставлениях сокращений?

Ответы:


2

Оператор итерации значения является сокращением относительно супремумом норма. Ваш пример, вероятно, дает контрпример к утверждению, что это сокращение по отношению к манхэттенской норме.


Спасибо Джефферсон. Я видел, как люди доказывают, что операторы - это сокращения, использующие все виды норм (включая $ L_2 $ и $ L _ {\ infty} $). Я, должно быть, сделал вывод, что эквивалентность нормы применяется к доказательству того, что оператор является сокращением, но это, вероятно, где я облажался. Я посмотрю это завтра.
Martin Van der Linden
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.